发帖
 找回密码
 立即注册
搜索
23 0 0
前沿技术 679 23 2025-8-7 09:09:14
刚刚在128GB内存的MacBook Pro M4 Max笔记本电脑上的LM Studio中下载了OpenAI 120b模型(openai/gpt  oss  120b)。它运行得非常快(平均每秒40个词元,首个词元生成时间为0.87秒),在我进行的几次测试中,只占用了大约60GB的内存,CPU使用率不到3%。与此同时,我在Parallels Desktop中运行着3个虚拟机(2个Windows系统和1个macOS系统),并且在虚拟机和主机Mac上总共打开了大约80个浏览器标签页。今后我会更多地使用本地大语言模型!编辑:经过进一步测试,LM Studio(或者是LM Studio中的该模型版本)使用这个模型时似乎存在4096个输出词元的限制,超过这个限制后,它会停止输出响应并显示以下错误:发送消息失败使用当前不支持生成过程中上下文溢出的模型(架构:gpt  oss)达到了4096个词元的上下文长度。尝试使用更大的上下文长度重新加载,或者缩短提示内容/聊天内容。然后我在128GB内存的MacBook Pro M4 Max笔记本电脑上的Ollama中尝试了gpt  oss  120b模型,在我的测试中它似乎运行得同样快,而且到目前为止没有截断输出。不过,Ollama的用户界面没有LM Studio那么好。编辑2:我找到了解决LM Studio中“4096个输出词元”限制的方法:在LM Studio的聊天窗口(窗口顶部中间位置)加载模型时,将默认的4096上下文长度更改为你想要的限制,最大可至该模型支持的上限(131072个词元)。
──── 0人觉得很赞 ────

使用道具 举报

试过这个了。LM Studio会将PDF文件分块并应用检索增强生成(RAG)技术。它运行速度很快。给我一些你想用的长文本(非PDF格式)以及提示词
2025-8-7 09:38:32
这个:https://lmstudio.ai/models/openai/gptoss120b当我选择Openai/gptoss120b时,LM Studio自动下载了大小为63.39GB的MXFP4版本。  
2025-8-7 09:56:38
我有一台配备48GB内存的M3 Max电脑,目前正在运行Qwen330BA3B思维模型。如果你给我指出某个具体文件,我会在我的苹果电脑上为你试试这个(操作 )。  
2025-8-7 09:57:34
我在同一台Macbook上,使用LM Studio,将上下文令牌长度设为131072,对gpt  120b GGUF进行了一些测试,以下是相关数据。每秒11.54个令牌 • 共6509个令牌 • 首个令牌生成耗时33.13秒使用相同提示词测试Qwen3  30b  a3b  2507的情况:每秒53.83个令牌 • 共6631个令牌 • 首个令牌生成耗时10.69秒我打算下载量化的MLX版本并进行测试:https://huggingface.co/NexVeridian/gptoss120b3bit  
2025-8-8 09:37:58
是的……除非有人的工作流程需要持续大量摄入数据,否则苹果电脑真的很不错。这些数据来自我的个人工作电脑。而且我们刚刚订购了两台512GB的M3 Ultra,以便在我们相对轻松但极其敏感的处理工作中运行完整的Deepseek。性价比超高。  
2025-8-8 09:43:57
但它与同类型的其他国产模型相比如何呢?比如GLM Air。很多人说它不太好。一个原因是它的校准过度,因此会拒绝回答很多问题 。  
2025-8-8 09:45:05
给你机器 M4 Max 款 MacBook Pro,128GBgptoss120b(MXFP4量化GGUF格式)输入  53000个词元(首个词元用时182秒)
输出  2127个词元(每秒31个词元)2. gptoss20b(8位mlx格式)
输入  53000个词元(首个词元用时114秒)
输出  1430个词元(每秒25个词元)
2025-8-8 13:27:35
是的,很好,我也更新到了0.3.22 。不过我这里有个模型还是不能用:“unsloth/GLM4.5AirGGUF”。加载这个模型时,我得到这样的提示:“加载模型错误:加载模型架构错误:未知的模型架构:‘glm4moe’”。你对这个问题熟悉吗?顺便说一下,我在lmstudio中使用的是不同版本的GLM4.5Air(GLM4.5AirMLX4bit),这个版本运行得很好。如果你还没用过,可以试试看。补充说明:同样来自Unsloth GGUF的这个“unsloth/gptoss120bGGUF”也出现了同样的错误。这就很奇怪了,因为LMStudio里另一个版本的gptoss120b(同样是GGUF格式)运行得好好的!
2025-8-8 14:21:27
谢谢!奇怪的是我无法加载这个模型,一直收到 “退出代码:11”——“加载模型失败” 的提示。我下载的是完全相同的版本(lmstudiocommunity/gptoss120bGGUF)。  
很高兴你找到了上下文设置。我运行了相同的设置,一开始就遇到了同样的问题。这个模型非常不错,但默认情况下它话也太多了。我放弃了,直接把它设到最大(点击“模型最大支持”的那个数字) 。  
2025-8-9 23:25:46
看起来是最新的……
2025-8-10 15:34:40
太棒了!没错,我很喜欢qwen3  235b。它一直是我的默认选择,不过新的2507变体也很棒。实际上,我让它在64k上下文窗口下运行,根据情况不同,它能给出非常实用的速度,大约每秒7到13个词元。而且这是在模型大小约134GB的Q4版本,且不涉及GPU层的情况下实现的。  
2025-8-11 05:34:41
一旦你完成了那件事,进入开发者选项,获取包含你数据的最终输出结果,然后把它发布到这里。只要随便抓取一个大型网站的源码,粘贴进去,然后说“给我做一个类似这样但带有80年代复古风格的网站” :P  
2025-8-12 14:47:39
醒来就看到LM Studio有一个重大更新。
新版本是0.3.22(版本2 )  
2025-8-13 05:57:52
你也可以考虑搭载128GB内存的锐龙AI Max 395+ Pro。它配备了惠普Z2 G1a,在Windows系统下运行相同模型时每秒大约能处理20次任务,在Linux系统下人们也实现了每秒大约40次任务的处理速度。而且,这台机器的成本仅为类似配置的苹果Mac Studio的60%左右。  
2025-8-13 16:13:36
说真的,给它输入一个大文件,让它修改一些代码之类的。然后告诉我提示处理时间是多久。
我想确认一下,这个是128GB的内存(RAM),而不是存储空间对吧?  
麻烦你能不能发个截图,晒一下你的电脑配置呀?谢谢啦~
2025-8-16 08:29:09
你可以把 top_k 设成 0(也就是不限制 top_k),这时候你会发现速度会稍微慢一点。因为模型在预测下一个 token 的时候,候选词越多,处理起来就越慢,特别是你得让 CPU 去对成千上万个可能的词做排序(有些词的概率几乎接近于零)。  
但如果你设置了 top_k,那就相当于只保留你指定数量的候选词,这样 CPU 就不用去处理那么多可能的下一个 token,效率自然就提升了。
2025-8-16 09:58:10
哈哈,我其实现在是在一个老台式机上折腾用核显(igpu)跑 llama.cpp。这玩意儿好像得各种折腾,有没有大佬知道现在哪个大DL模型能跑起来?我还没搞定,目前试了好几个标准版的 llama.cpp 下载包,都不太行。感觉它好像默认就认 Radeon 或者 Nvidia 的显卡,用核显的话可能得特殊操作,挺难搞的。
2025-8-18 14:04:08
用例决定了用什么来编码。我用 GGUF 做一些简单的任务,但如果你在重构一个包含多个目录和三十多个文件的项目,那它就得把这些文件一个个单独处理。我现在有 4 块 GPU,不管是用 GGUF 格式跑在 llamaserver 上,还是用 vLLM,我用的都是同一个模型。但用 vLLM 的时候,推理速度提升了 20 倍,真的挺夸张的。我也一直在琢磨,如果搞个带一大堆内存的 AM3 Ultra 会咋样。不过说实话,我从来没真正看到过 GGUF 和 MLX 各种变体之间在速度上的明显差别。这些数据对我来说挺有参考价值的。
2025-8-18 21:46:29
你让我输入一个带有50k token的提示,然后想让我告诉你,在我开始思考之前,处理这段内容需要多长时间。这就像你下载了一篇很长的研究论文,然后把它复制粘贴成一个摘要请求一样。不要通过附加doc或者PDF的方式来糊弄,因为那会用不同的方式处理。为什么很难找到Mac用户来处理这种大篇幅提示的响应速度问题呢?
2025-8-19 11:50:13
你到底想表达什么?你只是在随便找几个数字看看吗?还是想说Mac在处理提示这方面还有提升空间?如果没有实际的应用场景,搞一堆五万个提示词的文本,可能也就是个代码库而已。如果你有不同的想法,我们也挺好奇的,不如你也来聊聊,看看怎么用五万个提示词干点有意义的事?
2025-8-20 13:42:32
楼主你在Ollama和LM Studio上跑的是同一个GGUF模型吗?如果你想在MacBook上用MLX版本的模型,那你得去找一个像这样量化好的版本:https://huggingface.co/NexVeridian/gptoss120b3bit另外,Ollama默认的上下文token长度设置跟别的平台可能不一样。你在LM Studio加载模型的时候可以手动调整相关设置。这个模型的最大上下文长度是131072。
您需要登录后才可以回帖 立即登录
高级模式