Awni Hannun 提了个挺有意思的事,说他在一台配备了 512GB M3 Ultra 的 Mac Studio 上,用了 272GB 的内存(也就是 RAM),跑了一个 4bit 量化的 MLX 版本模型,速度能达到每秒 24 个 token。任务是“写一个 Python 脚本,模拟一个黄色小球在一个正方形内弹跳,并正确处理碰撞检测,还要让正方形缓慢旋转。用 Python 实现,确保球不会弹出去。”来源可以看这里:https://simonwillison.net/2025/7月/22/qwen3coder/Awni 的推文在这:https://x.com/awnihannun/status/1947771502058672219这消息真假还不确定,但看起来挺靠谱的。如果你不想砸锅卖铁买一块高端的 NVidia 显卡来跑这些模型,那这可能是个不错的选择。当然你也可以考虑别的“硬刚”方案,比如这个:https://unixsurplus.com/inspurnf5288m5gpuserver/
这玩意配了 256GB 内存,带 NVLink,带宽高达 800GB/s。不过说实话,这机器简直就是“电老虎”,空闲状态都能吃掉 300W 的电力,运行起来噪音还大,像女妖在嚎叫一样。———
以上内容是我根据原文的口语化表达,保留了原意和链接,并做了更符合中文阅读习惯的调整。 |