在搭载128GB内存的MacBook Pro M4 Max上，通过LM Studio使用最新的OpenAI 1200亿参数模型（openai/gptoss120b）时，每秒能处理40个词元

前沿技术 · 2025-8-7 09:09:14

刚刚在128GB内存的MacBook Pro M4 Max笔记本电脑上的LM Studio中下载了OpenAI 120b模型（openai/gpt oss 120b）。它运行得非常快（平均每秒40个词元，首个词元生成时间为0.87秒），在我进行的几次测试中，只占用了大约60GB的内存，CPU使用率不到3%。与此同时，我在Parallels Desktop中运行着3个虚拟机（2个Windows系统和1个macOS系统），并且在虚拟机和主机Mac上总共打开了大约80个浏览器标签页。今后我会更多地使用本地大语言模型！编辑：经过进一步测试，LM Studio（或者是LM Studio中的该模型版本）使用这个模型时似乎存在4096个输出词元的限制，超过这个限制后，它会停止输出响应并显示以下错误：发送消息失败使用当前不支持生成过程中上下文溢出的模型（架构：gpt oss）达到了4096个词元的上下文长度。尝试使用更大的上下文长度重新加载，或者缩短提示内容/聊天内容。然后我在128GB内存的MacBook Pro M4 Max笔记本电脑上的Ollama中尝试了gpt oss 120b模型，在我的测试中它似乎运行得同样快，而且到目前为止没有截断输出。不过，Ollama的用户界面没有LM Studio那么好。编辑2：我找到了解决LM Studio中“4096个输出词元”限制的方法：在LM Studio的聊天窗口（窗口顶部中间位置）加载模型时，将默认的4096上下文长度更改为你想要的限制，最大可至该模型支持的上限（131072个词元）。

wenchuantian · 2025-8-7 09:12:39

试过这个了。LM Studio会将PDF文件分块并应用检索增强生成（RAG）技术。它运行速度很快。给我一些你想用的长文本（非PDF格式）以及提示词

酷凤爱 · 2025-8-7 09:38:32

这个：https://lmstudio.ai/models/openai/gptoss120b当我选择Openai/gptoss120b时，LM Studio自动下载了大小为63.39GB的MXFP4版本。

lby317 · 2025-8-7 09:56:38

我有一台配备48GB内存的M3 Max电脑，目前正在运行Qwen330BA3B思维模型。如果你给我指出某个具体文件，我会在我的苹果电脑上为你试试这个（操作）。

lbeminy · 2025-8-7 09:57:34

我在同一台Macbook上，使用LM Studio，将上下文令牌长度设为131072，对gpt 120b GGUF进行了一些测试，以下是相关数据。每秒11.54个令牌 • 共6509个令牌 • 首个令牌生成耗时33.13秒使用相同提示词测试Qwen3 30b a3b 2507的情况：每秒53.83个令牌 • 共6631个令牌 • 首个令牌生成耗时10.69秒我打算下载量化的MLX版本并进行测试：https://huggingface.co/NexVeridian/gptoss120b3bit

unitar · 2025-8-8 09:37:58

是的……除非有人的工作流程需要持续大量摄入数据，否则苹果电脑真的很不错。这些数据来自我的个人工作电脑。而且我们刚刚订购了两台512GB的M3 Ultra，以便在我们相对轻松但极其敏感的处理工作中运行完整的Deepseek。性价比超高。

美梦猫 · 2025-8-8 09:43:57

但它与同类型的其他国产模型相比如何呢？比如GLM Air。很多人说它不太好。一个原因是它的校准过度，因此会拒绝回答很多问题。

tjohn · 2025-8-8 09:45:05

给你机器 M4 Max 款 MacBook Pro，128GBgptoss120b（MXFP4量化GGUF格式）输入  53000个词元（首个词元用时182秒）
输出  2127个词元（每秒31个词元）2. gptoss20b（8位mlx格式）
输入  53000个词元（首个词元用时114秒）
输出  1430个词元（每秒25个词元）

zxhk0794 · 2025-8-8 13:27:35

是的，很好，我也更新到了0.3.22 。不过我这里有个模型还是不能用：“unsloth/GLM4.5AirGGUF”。加载这个模型时，我得到这样的提示：“加载模型错误：加载模型架构错误：未知的模型架构：‘glm4moe’”。你对这个问题熟悉吗？顺便说一下，我在lmstudio中使用的是不同版本的GLM4.5Air（GLM4.5AirMLX4bit），这个版本运行得很好。如果你还没用过，可以试试看。补充说明：同样来自Unsloth GGUF的这个“unsloth/gptoss120bGGUF”也出现了同样的错误。这就很奇怪了，因为LMStudio里另一个版本的gptoss120b（同样是GGUF格式）运行得好好的！

wddp · 2025-8-8 14:21:27

谢谢！奇怪的是我无法加载这个模型，一直收到 “退出代码：11”——“加载模型失败” 的提示。我下载的是完全相同的版本（lmstudiocommunity/gptoss120bGGUF）。

猪头他爸 · 2025-8-9 15:45:21

很高兴你找到了上下文设置。我运行了相同的设置，一开始就遇到了同样的问题。这个模型非常不错，但默认情况下它话也太多了。我放弃了，直接把它设到最大（点击“模型最大支持”的那个数字）。

慢情星 · 2025-8-9 23:25:46

看起来是最新的……

测试 · 2025-8-10 15:34:40

太棒了！没错，我很喜欢qwen3 235b。它一直是我的默认选择，不过新的2507变体也很棒。实际上，我让它在64k上下文窗口下运行，根据情况不同，它能给出非常实用的速度，大约每秒7到13个词元。而且这是在模型大小约134GB的Q4版本，且不涉及GPU层的情况下实现的。

橙影儿 · 2025-8-11 05:34:41

一旦你完成了那件事，进入开发者选项，获取包含你数据的最终输出结果，然后把它发布到这里。只要随便抓取一个大型网站的源码，粘贴进去，然后说“给我做一个类似这样但带有80年代复古风格的网站” ：P

暖虎狗 · 2025-8-12 14:47:39

醒来就看到LM Studio有一个重大更新。
新版本是0.3.22（版本2 ）

段花羽 · 2025-8-13 05:57:52

你也可以考虑搭载128GB内存的锐龙AI Max 395+ Pro。它配备了惠普Z2 G1a，在Windows系统下运行相同模型时每秒大约能处理20次任务，在Linux系统下人们也实现了每秒大约40次任务的处理速度。而且，这台机器的成本仅为类似配置的苹果Mac Studio的60%左右。

xiaoliang · 2025-8-13 16:13:36

说真的，给它输入一个大文件，让它修改一些代码之类的。然后告诉我提示处理时间是多久。

吃着火锅唱 · 2025-8-15 16:34:04

我想确认一下，这个是128GB的内存（RAM），而不是存储空间对吧？
麻烦你能不能发个截图，晒一下你的电脑配置呀？谢谢啦~

新思水 · 2025-8-16 08:29:09

你可以把 top_k 设成 0（也就是不限制 top_k），这时候你会发现速度会稍微慢一点。因为模型在预测下一个 token 的时候，候选词越多，处理起来就越慢，特别是你得让 CPU 去对成千上万个可能的词做排序（有些词的概率几乎接近于零）。
但如果你设置了 top_k，那就相当于只保留你指定数量的候选词，这样 CPU 就不用去处理那么多可能的下一个 token，效率自然就提升了。

xinzhyu · 2025-8-16 09:58:10

哈哈，我其实现在是在一个老台式机上折腾用核显（igpu）跑 llama.cpp。这玩意儿好像得各种折腾，有没有大佬知道现在哪个大DL模型能跑起来？我还没搞定，目前试了好几个标准版的 llama.cpp 下载包，都不太行。感觉它好像默认就认 Radeon 或者 Nvidia 的显卡，用核显的话可能得特殊操作，挺难搞的。

zhangke · 2025-8-18 14:04:08

用例决定了用什么来编码。我用 GGUF 做一些简单的任务，但如果你在重构一个包含多个目录和三十多个文件的项目，那它就得把这些文件一个个单独处理。我现在有 4 块 GPU，不管是用 GGUF 格式跑在 llamaserver 上，还是用 vLLM，我用的都是同一个模型。但用 vLLM 的时候，推理速度提升了 20 倍，真的挺夸张的。我也一直在琢磨，如果搞个带一大堆内存的 AM3 Ultra 会咋样。不过说实话，我从来没真正看到过 GGUF 和 MLX 各种变体之间在速度上的明显差别。这些数据对我来说挺有参考价值的。

liwei1 · 2025-8-18 21:46:29

你让我输入一个带有50k token的提示，然后想让我告诉你，在我开始思考之前，处理这段内容需要多长时间。这就像你下载了一篇很长的研究论文，然后把它复制粘贴成一个摘要请求一样。不要通过附加doc或者PDF的方式来糊弄，因为那会用不同的方式处理。为什么很难找到Mac用户来处理这种大篇幅提示的响应速度问题呢？

快瘦云儿 · 2025-8-19 11:50:13

你到底想表达什么？你只是在随便找几个数字看看吗？还是想说Mac在处理提示这方面还有提升空间？如果没有实际的应用场景，搞一堆五万个提示词的文本，可能也就是个代码库而已。如果你有不同的想法，我们也挺好奇的，不如你也来聊聊，看看怎么用五万个提示词干点有意义的事？

慢瘦叶子 · 2025-8-20 13:42:32

楼主你在Ollama和LM Studio上跑的是同一个GGUF模型吗？如果你想在MacBook上用MLX版本的模型，那你得去找一个像这样量化好的版本：https://huggingface.co/NexVeridian/gptoss120b3bit另外，Ollama默认的上下文token长度设置跟别的平台可能不一样。你在LM Studio加载模型的时候可以手动调整相关设置。这个模型的最大上下文长度是131072。

		自动登录	找回密码
密码			立即注册

在搭载128GB内存的MacBook Pro M4 Max上，通过LM Studio使用最新的OpenAI 1200亿参数模型（openai/gptoss120b）时，每秒能处理40个词元

相关帖子

23 回复

元老级人物