我有一台配备16GB内存的MacBook M4 Pro,所以我列出了应该能在上面运行的最佳模型。为了达到最高效率,我将在无图形用户界面(GUI)的情况下使用llama.cpp,但即便如此,其中一些量化模型可能仍然太大,没有足够空间用于推理令牌和一些上下文信息,我也不太确定,毕竟我是个新手。
根据我的研究,以下是适用于16GB内存以下的最佳模型和量化配置,但我是新手,还没有测试过这些:
最佳推理模型:
Qwen3 32B (IQ3_XXS 12.8GB)
Qwen3 30B A3B Thinking 2507 (IQ3_XS 12.7GB)
Qwen 14B (Q6_K_L 12.50GB)
gpt oss 20b (12GB)
Phi 4 reasoning plus (Q6_K_L 12.3GB)
最佳非推理模型:
gemma 3 27b (IQ4_XS 14.77GB)
Mistral Small 3.2 24B Instruct 2506 (Q4_K_L 14.83GB)
gemma 3 12b (Q8_0 12.5GB)
我的使用场景:
准确总结会议记录。
通过删除机密信息,同时保持其他内容不变,创建文档的匿名/审查版本。
询问在没有网络的场景(如露营)下的生存问题。我觉得medgemma 27b text在这种场景下会很不错。
比起速度,我更看重准确性和智能性。就我的使用场景而言,我的列表和量化配置怎么样?我有没有遗漏什么模型或者有什么错误?对于在16GB内存的MacBook M4 Pro上使用llama.cpp以获得最佳性能,有什么建议吗? |