发帖
 找回密码
 立即注册
搜索
0 0 0
前沿技术 172 0 3 小时前
刚刚在128GB内存的MacBook Pro M4 Max笔记本电脑上的LM Studio中下载了OpenAI 120b模型(openai/gpt  oss  120b)。它运行得非常快(平均每秒40个词元,首个词元生成时间为0.87秒),在我进行的几次测试中,只占用了大约60GB的内存,CPU使用率不到3%。与此同时,我在Parallels Desktop中运行着3个虚拟机(2个Windows系统和1个macOS系统),并且在虚拟机和主机Mac上总共打开了大约80个浏览器标签页。今后我会更多地使用本地大语言模型!编辑:经过进一步测试,LM Studio(或者是LM Studio中的该模型版本)使用这个模型时似乎存在4096个输出词元的限制,超过这个限制后,它会停止输出响应并显示以下错误:发送消息失败使用当前不支持生成过程中上下文溢出的模型(架构:gpt  oss)达到了4096个词元的上下文长度。尝试使用更大的上下文长度重新加载,或者缩短提示内容/聊天内容。然后我在128GB内存的MacBook Pro M4 Max笔记本电脑上的Ollama中尝试了gpt  oss  120b模型,在我的测试中它似乎运行得同样快,而且到目前为止没有截断输出。不过,Ollama的用户界面没有LM Studio那么好。编辑2:我找到了解决LM Studio中“4096个输出词元”限制的方法:在LM Studio的聊天窗口(窗口顶部中间位置)加载模型时,将默认的4096上下文长度更改为你想要的限制,最大可至该模型支持的上限(131072个词元)。
──── 0人觉得很赞 ────

使用道具 举报

试过这个了。LM Studio会将PDF文件分块并应用检索增强生成(RAG)技术。它运行速度很快。给我一些你想用的长文本(非PDF格式)以及提示词
这个:https://lmstudio.ai/models/openai/gptoss120b当我选择Openai/gptoss120b时,LM Studio自动下载了大小为63.39GB的MXFP4版本。  
我有一台配备48GB内存的M3 Max电脑,目前正在运行Qwen330BA3B思维模型。如果你给我指出某个具体文件,我会在我的苹果电脑上为你试试这个(操作 )。  
我在同一台Macbook上,使用LM Studio,将上下文令牌长度设为131072,对gpt  120b GGUF进行了一些测试,以下是相关数据。每秒11.54个令牌 • 共6509个令牌 • 首个令牌生成耗时33.13秒使用相同提示词测试Qwen3  30b  a3b  2507的情况:每秒53.83个令牌 • 共6631个令牌 • 首个令牌生成耗时10.69秒我打算下载量化的MLX版本并进行测试:https://huggingface.co/NexVeridian/gptoss120b3bit  
您需要登录后才可以回帖 立即登录
高级模式