发帖
 找回密码
 立即注册
搜索
0 0 0
前沿技术 421 0 昨天 15:43
我有一台配备16GB内存的MacBook M4 Pro,所以我列出了应该能在上面运行的最佳模型。为了达到最高效率,我将在无图形用户界面(GUI)的情况下使用llama.cpp,但即便如此,其中一些量化模型可能仍然太大,没有足够空间用于推理令牌和一些上下文信息,我也不太确定,毕竟我是个新手。

根据我的研究,以下是适用于16GB内存以下的最佳模型和量化配置,但我是新手,还没有测试过这些:

最佳推理模型:

Qwen3  32B (IQ3_XXS  12.8GB)


Qwen3  30B  A3B  Thinking  2507 (IQ3_XS  12.7GB)


Qwen 14B (Q6_K_L 12.50GB)


gpt  oss  20b (12GB)


Phi  4  reasoning  plus (Q6_K_L  12.3GB)


最佳非推理模型:

gemma  3  27b (IQ4_XS  14.77GB)


Mistral  Small  3.2  24B  Instruct  2506 (Q4_K_L  14.83GB)


gemma  3  12b (Q8_0  12.5GB)


我的使用场景:

准确总结会议记录。


通过删除机密信息,同时保持其他内容不变,创建文档的匿名/审查版本。


询问在没有网络的场景(如露营)下的生存问题。我觉得medgemma  27b  text在这种场景下会很不错。


比起速度,我更看重准确性和智能性。就我的使用场景而言,我的列表和量化配置怎么样?我有没有遗漏什么模型或者有什么错误?对于在16GB内存的MacBook M4 Pro上使用llama.cpp以获得最佳性能,有什么建议吗?
──── 0人觉得很赞 ────

使用道具 举报

虽然对于你提到的用例来说不一定是理想之选,但既然你提到了推理能力,通义千问3 4B(Qwen3 4B)的思维能力(thinking 2507)绝对令人惊叹。GPTOSS 20B是一个很有迷惑性的“说谎者”,我不建议使用它。  
我可以告诉你,Qwen330BA3BThinking2507在Q8的表现非常出色,但在Q3的情况……我不太确定。我觉得你可以试试看,然后告诉我们结果如何。  
如果速度无关紧要,你可以直接从固态硬盘中流式传输模型。每个词元的处理速度可能要好几秒,但可供选择的模型会更多。  
这在x86个人电脑上可行,但我不确定在不同操作系统下,针对苹果ARM硬件运行大语言模型(LLMs)时是否也能行得通。我不是说你无法让它运行(如今Vulkan基本上在任何设备上都能运行),而是说这样做可能会损失很多性能。  
您需要登录后才可以回帖 立即登录
高级模式