刚刚在128GB内存的MacBook Pro M4 Max笔记本电脑上的LM Studio中下载了OpenAI 120b模型(openai/gpt oss 120b)。它运行得非常快(平均每秒40个词元,首个词元生成时间为0.87秒),在我进行的几次测试中,只占用了大约60GB的内存,CPU使用率不到3%。与此同时,我在Parallels Desktop中运行着3个虚拟机(2个Windows系统和1个macOS系统),并且在虚拟机和主机Mac上总共打开了大约80个浏览器标签页。今后我会更多地使用本地大语言模型!编辑:经过进一步测试,LM Studio(或者是LM Studio中的该模型版本)使用这个模型时似乎存在4096个输出词元的限制,超过这个限制后,它会停止输出响应并显示以下错误:发送消息失败使用当前不支持生成过程中上下文溢出的模型(架构:gpt oss)达到了4096个词元的上下文长度。尝试使用更大的上下文长度重新加载,或者缩短提示内容/聊天内容。然后我在128GB内存的MacBook Pro M4 Max笔记本电脑上的Ollama中尝试了gpt oss 120b模型,在我的测试中它似乎运行得同样快,而且到目前为止没有截断输出。不过,Ollama的用户界面没有LM Studio那么好。编辑2:我找到了解决LM Studio中“4096个输出词元”限制的方法:在LM Studio的聊天窗口(窗口顶部中间位置)加载模型时,将默认的4096上下文长度更改为你想要的限制,最大可至该模型支持的上限(131072个词元)。 |