发帖
 找回密码
 立即注册
搜索
3 0 0
日常闲聊 512 3 5 小时前
虽然现在M1 Max芯片已经不是苹果最新的了,但它在本地运行大语言模型(LLM)方面,依然非常能打。特别是对于个人开发者或者小团队来说,M1 Max的性能已经足够应对很多LLM的推理任务,比如跑个Llama 2的7B模型,或者更小的版本,基本没啥压力。 而且它功耗低、发热小、续航强,这些优势在本地部署和测试模型的时候特别实用。毕竟不是谁都能随时用得起云端算力,本地跑模型更灵活、也更安全。 所以如果你已经有一台M1 Max的Mac,别急着换新,它在AI这条路上,还能陪你走挺远的。


最近我准备入手一台新的笔记本电脑,因为我想深入研究一下本地的LLM(大语言模型),顺便练练手,毕竟写代码和做软件开发是我最大的爱好。
我一开始是冲着M4 Pro版本的MacBook Pro去的,想买个带48GB内存的版本。但后来一想,不如也看看翻新的笔记本,结果发现能买到64GB内存的M1 MacBook Pro,价格还比M4版便宜了差不多1000欧元。
现在我就有点纠结了:M1芯片现在还值得入手吗?它在未来几年里还能应付得来日常工作和项目练习吗?我不希望只是因为便宜就买了,结果用一两年又得换新电脑,那样反而更不划算。
谢谢你!
──── 0人觉得很赞 ────

使用道具 举报

5 小时前
我最近也刚刚研究过这个问题,还做了一些对比测试:我发现 M1 Max 64GB 的机器,因为内存带宽更高,所以在每秒输出 token 的表现上,其实能超过 M4 和 M4 Pro。这是因为 M1 Max 拥有 400GB/s 的带宽 + 64GB 内存,这对跑大模型来说非常关键(参考:https://github.com/ggmlorg/llama.cpp/discussions/4167)。我自己还有一台 M4 Pro、48GB 内存的机器,我也跑了同样的 LLM 模型。结果发现,它的每秒 token 数量反而不如 M1 Max,比 Ollama、LM Studio 这些平台上的表现还要差一些。M4 和 M4 Pro 的问题在于,它们的内存带宽分别是 120GB/s 和 273GB/s,而 M1 Max 是 400GB/s。这意味着,它们在处理 token 输出时,最多只能达到 M1 Max 的一半速度。从我的研究和实测来看,M1 Max 64GB 是目前性价比最高的一款。现在 eBay 上的价格大概在 $1300 到 $1400 左右,差不多 €1200,而且它还是一台便携式笔记本,日常使用也很方便。如果你实在找不到合适的 M1 Max,那还有一个替代选择是搭载 Ryzen AI 9 HX 395 的 Strix Halo 机器,内存是 128GB,价格大概在 $1600 左右。
我用 M1 Max 跑 LLMs 也已经好几年了。早几年那真挺香的,现在虽说还能用,但真没啥惊喜了。特别是算力方面,明显有点跟不上了,生成 token 的速度有点慢。再说这玩意儿几年前就开始落伍了,现在更不用说了。你花了多少钱?要是就一千欧元出头,那确实可以考虑。但你说还不到一千欧元,那可能就不只是差这么点了。
说白了,M1系列的Mac虽然已经停产一年多,但苹果对它的macOS支持其实还不错,尤其是现在还执行着5年更新政策。不过这个政策主要是针对之前用Intel处理器+独立显卡的Mac机型。至于Apple Silicon(也就是M系列芯片)停产多久的设备能继续获得系统更新,目前还没看到超过5年的例子,所以很多人猜测苹果可能会延长到7年支持。从实际使用来看,我自己之前用的是M1 Max 64GB内存的Mac Studio,跑大语言模型(LLMs)还是挺够用的。不过最近我换成了M1 Ultra 64GB的Mac Studio,性能提升很明显,速度大概翻倍了。很多人现在还在拿Llama37b在llama.cpp上的基准测试说事,其实这个测试已经有点过时了。特别是现在有了针对苹果自家芯片优化的MLX框架,新一点的芯片比如M2、M3系列在跑这些模型的时候,速度真的快了不少。

M2 Ultra / xx —— 70 tokens/s(用了FA加速)—— unsloth GGUF
M4 Mac mini / 4050 tokens/s(FA加速)—— MXFP4
M1 Ultra / 64 —— 39 tokens/s(FA加速)—— unsloth GGUF
M3 Mac mini / 32 —— 25 tokens/s —— GGUF(有意思的是,帖子里没人提到M3 Ultra的token速度是多少)( 如果你对那台M1 Ultra感兴趣,可以私信我,我现在用的是M1 Ultra,旧的那台可以出手)
如果你用的是同一台机器,建议选64GB内存,再配上大容量的SSD硬盘。  
毕竟除了模型本身,你还要运行其他东西,内存得够用才行。AI模型的文件往往很大,别到时候卡住了。我自己在这个配置下跑过 openai/gptoss20b 和 Mistral 小型 3.2 24B,两个都跑得很顺畅,没出啥问题。
想玩转大语言模型(LLMs)?先搞一台带Nvidia显卡的电脑。这玩意儿发展太快了,你得想着以后还能方便升级。
我这台是 M1 Max,配了 64GB 内存。虽然我没用过别的配置,不好对比。但从我了解的情况来看,GPU 内存越大越好。内存多了,就能跑更大的模型,而大模型效果……怎么说呢,好像就是更强吧。我希望 M4 整体上能更强一点,不过它对跑 LLM 到底有什么提升,我还真不太清楚。再说现在 M4 刚出来,还挺新的,估计以后优化会越来越好。至于现在嘛……就那样吧(摊手)
您需要登录后才可以回帖 立即登录
高级模式