发帖
 找回密码
 立即注册
搜索
16 0 0
前沿技术 644 16 2025-8-9 15:43:40
我有一台配备16GB内存的MacBook M4 Pro,所以我列出了应该能在上面运行的最佳模型。为了达到最高效率,我将在无图形用户界面(GUI)的情况下使用llama.cpp,但即便如此,其中一些量化模型可能仍然太大,没有足够空间用于推理令牌和一些上下文信息,我也不太确定,毕竟我是个新手。

根据我的研究,以下是适用于16GB内存以下的最佳模型和量化配置,但我是新手,还没有测试过这些:

最佳推理模型:

Qwen3  32B (IQ3_XXS  12.8GB)


Qwen3  30B  A3B  Thinking  2507 (IQ3_XS  12.7GB)


Qwen 14B (Q6_K_L 12.50GB)


gpt  oss  20b (12GB)


Phi  4  reasoning  plus (Q6_K_L  12.3GB)


最佳非推理模型:

gemma  3  27b (IQ4_XS  14.77GB)


Mistral  Small  3.2  24B  Instruct  2506 (Q4_K_L  14.83GB)


gemma  3  12b (Q8_0  12.5GB)


我的使用场景:

准确总结会议记录。


通过删除机密信息,同时保持其他内容不变,创建文档的匿名/审查版本。


询问在没有网络的场景(如露营)下的生存问题。我觉得medgemma  27b  text在这种场景下会很不错。


比起速度,我更看重准确性和智能性。就我的使用场景而言,我的列表和量化配置怎么样?我有没有遗漏什么模型或者有什么错误?对于在16GB内存的MacBook M4 Pro上使用llama.cpp以获得最佳性能,有什么建议吗?
──── 0人觉得很赞 ────

使用道具 举报

2025-8-9 15:49:28
虽然对于你提到的用例来说不一定是理想之选,但既然你提到了推理能力,通义千问3 4B(Qwen3 4B)的思维能力(thinking 2507)绝对令人惊叹。GPTOSS 20B是一个很有迷惑性的“说谎者”,我不建议使用它。  
我可以告诉你,Qwen330BA3BThinking2507在Q8的表现非常出色,但在Q3的情况……我不太确定。我觉得你可以试试看,然后告诉我们结果如何。  
2025-8-9 20:43:44
如果速度无关紧要,你可以直接从固态硬盘中流式传输模型。每个词元的处理速度可能要好几秒,但可供选择的模型会更多。  
2025-8-9 21:15:45
这在x86个人电脑上可行,但我不确定在不同操作系统下,针对苹果ARM硬件运行大语言模型(LLMs)时是否也能行得通。我不是说你无法让它运行(如今Vulkan基本上在任何设备上都能运行),而是说这样做可能会损失很多性能。  
2025-8-10 16:44:41
关键在于,仅配备16GB内存的基础款M4 Mac,无法让你获得出色的人工智能性能。在这种配置下,你最多只能以4位精度运行130亿参数模型。最初,运行速度大概能达到每秒18个词元,上下文长度约4000个词元,乍一看似乎还行,但实际上你的操作非常受限。至于270亿参数模型,就完全不用想了。若想在本地运行大语言模型并做些有价值的事情,你需要更大的内存和更多的GPU核心,这是两个关键要素 。  
2025-8-12 22:17:51
在我看来,支持MLX的LM Studio是最棒的。
2025-8-13 17:44:54
在Q8中试试全新的通义千问3 4B指令模型2507版本。它的表现远超预期,在处理上下文方面有很大优势,而且不会占用太多存储空间。  
2025-8-13 17:55:53
我也添加上这个,在我看来它 棒极了:https://lmstudio.ai/models/openai/gptoss20b
2025-8-14 07:59:10
杰玛  3N  4B 比任何杰玛型号都要好。
2025-8-14 15:56:01
我想说,Qwen38B 真的是我的菜,不管是在 16GB 显存的 GPU 上用 vLLM 跑,还是用 LM Studio 做常规推理都非常顺手。毕竟 Q8 量化版本才占大概 9GB 显存,用来做工具调用、推理啥的,体验真的很棒。
2025-8-16 02:19:05
我超喜欢Phi14B,就算跑到6BPW也照样稳得很
2025-8-16 05:41:06
不聊主题了?不过,你这是在总结会议纪要吗?你从哪儿拿到的?
2025-8-16 09:51:11
这话说得有点儿意思啊,感谢你的“夸奖” 😂
2025-8-17 04:08:25
我在24GB的统一内存上跑了Q3,整体表现挺稳定的,响应也很流畅。
2025-8-18 14:03:04
这是一个很小的4B模型,运行起来只需要16GB的统一内存。用Q8量化的话,8GB内存就能跑,而且上下文能拉到14K,还支持闪存注意力机制。这玩意儿跑起来快得飞起。
2025-8-20 19:38:46
哦,感觉还挺公平的。不过我觉得这还是挺有局限性的
您需要登录后才可以回帖 立即登录
高级模式