在英特尔NUC上跑Qwen 3 30B的a3b版本，效果真是让人眼前一亮

日常闲聊 · 昨天 16:52

你好，我最近在家用服务器上折腾了一下本地的大语言模型（LLMs）。说实话，我一开始没抱太大希望，毕竟我的设备只是个英特尔NUC 13i7，64G内存，没有独立显卡。
我试了Qwen3的4B模型，发现它居然能跑起来，而且效果还不错，模型体积也挺小巧的。不过说实话，用起来更像是个有趣的玩具，因为跟GPT、DeepSeek或者Gemini之类的模型比起来，它的回答还是差了点意思。
说说我的环境吧：我是在Proxmox上通过Docker跑了一个Debian 12的LXC容器，用来运行Ollama和OpenWebUI，纯CPU模式。Qwen3 4B的q4_k_m版本，我能跑到大概每秒10个token，已经挺满意了。这个LXC分配了6个vcore和38G内存专门给它用。
但后来我试了个新出的MoE模型，Qwen330BA3B2507，同样用q4_k_m量化版本……结果让我大吃一惊！不仅跑得比4B还快，回复质量也更好。特别是它的“思维链”模式，简直让我开心坏了。这个30B模型我能跑到1112个token每秒！
我还用Vulkan在我的7900XT显卡上跑了同样的模型，结果跑到了40个token，确实快不少。不过话说回来，我这NUC功耗才80瓦左右，就能跑到12 token，已经很划算了。谁会24小时开着显卡干这事啊。
这算是我这套小设备能跑出的极限了吗？我也试过Mixtral 8x7B，但不太喜欢，主要是它不支持Markdown和LaTeX之类的格式，而且经常莫名其妙用西班牙语“Hola!”开头，挺烦的。
总之，本地LLMs真香！

旅行者 · 昨天 17:14

太感谢你的建议了，我现在就去试试Qwen Coder🫡

咕咕咕咕 · 昨天 17:17

有意思的是，我得先道个歉，如果之前有误导的话。但即使这个模型可能只激活了1.5GB，它还是要比我测试过的3.8GB或者5GB的密集模型强不少。光是从结构设计的角度来看，我就觉得挺牛的。

79awcn · 昨天 19:09

普通的CPU运行起来应该会比这个更快。

eking · 昨天 19:39

这取决于你的具体设置，我这边用的是 flash 注意（应该是 Flash Attention）。在 LM Studio 里，我的设置是这样的： GPU 卸载：48 / 48
上下文窗口：64K
CPU 线程池大小：6
专家数量（MoE）：4
启用 MoE
卸载到 KV 缓存
把模型留在内存中
使用 mmap  这些设置能帮助模型更高效地运行，尤其是在处理长文本或复杂任务时。如果你也在调模型，可以参考一下～

senholy · 昨天 20:49

对你和很多人来说，看看那些没有 GPU 的人，以及它所带来的价值，其实挺棒的。也许他们之前根本不知道，原来这东西还能在 CPU 上跑，现在他们知道了。

vicko007 · 昨天 23:06

你可以试试用 LM Studio 来获得更好的性能 —— 这是个更友好的替代方案，因为你可以根据自己的硬件情况，实时调整模型配置。这时候，骆驼（可能指某种模型）会更合适。还有个 cpp 的版本也可以看看。另外，建议你保留一些适合做推理和编码的模型在手边。在一些指令模型可能搞不定的情况下，这些模型可能会更有优势。还可以尝试 Unsloth 出的 (UD)Q4_K_XL 量化版本，相比 Q4_K_M，它能在保持智能程度的同时，帮你省下将近 1GB 的空间。

暖希鱼 · 2 小时前

我喜欢Qwen模型，但他们总觉得这是件挺痛苦的事。后来我就改用Gemma了。

		自动登录	找回密码
密码			立即注册

在英特尔NUC上跑Qwen 3 30B的a3b版本，效果真是让人眼前一亮

相关帖子

2 回复

浏览过的版块