发帖
 找回密码
 立即注册
搜索
2 0 0
日常闲聊 457 2 昨天 16:52
你好,我最近在家用服务器上折腾了一下本地的大语言模型(LLMs)。说实话,我一开始没抱太大希望,毕竟我的设备只是个英特尔NUC 13i7,64G内存,没有独立显卡。
我试了Qwen3的4B模型,发现它居然能跑起来,而且效果还不错,模型体积也挺小巧的。不过说实话,用起来更像是个有趣的玩具,因为跟GPT、DeepSeek或者Gemini之类的模型比起来,它的回答还是差了点意思。
说说我的环境吧:我是在Proxmox上通过Docker跑了一个Debian 12的LXC容器,用来运行Ollama和OpenWebUI,纯CPU模式。Qwen3 4B的q4_k_m版本,我能跑到大概每秒10个token,已经挺满意了。这个LXC分配了6个vcore和38G内存专门给它用。
但后来我试了个新出的MoE模型,Qwen330BA3B2507,同样用q4_k_m量化版本……结果让我大吃一惊!不仅跑得比4B还快,回复质量也更好。特别是它的“思维链”模式,简直让我开心坏了。这个30B模型我能跑到1112个token每秒!
我还用Vulkan在我的7900XT显卡上跑了同样的模型,结果跑到了40个token,确实快不少。不过话说回来,我这NUC功耗才80瓦左右,就能跑到12 token,已经很划算了。谁会24小时开着显卡干这事啊。
这算是我这套小设备能跑出的极限了吗?我也试过Mixtral 8x7B,但不太喜欢,主要是它不支持Markdown和LaTeX之类的格式,而且经常莫名其妙用西班牙语“Hola!”开头,挺烦的。
总之,本地LLMs真香!
──── 0人觉得很赞 ────

使用道具 举报

太感谢你的建议了,我现在就去试试Qwen Coder🫡
有意思的是,我得先道个歉,如果之前有误导的话。但即使这个模型可能只激活了1.5GB,它还是要比我测试过的3.8GB或者5GB的密集模型强不少。光是从结构设计的角度来看,我就觉得挺牛的。
普通的CPU运行起来应该会比这个更快。
这取决于你的具体设置,我这边用的是 flash 注意(应该是 Flash Attention)。在 LM Studio 里,我的设置是这样的: GPU 卸载:48 / 48  
上下文窗口:64K  
CPU 线程池大小:6  
专家数量(MoE):4  
启用 MoE  
卸载到 KV 缓存  
把模型留在内存中  
使用 mmap  这些设置能帮助模型更高效地运行,尤其是在处理长文本或复杂任务时。如果你也在调模型,可以参考一下~
对你和很多人来说,看看那些没有 GPU 的人,以及它所带来的价值,其实挺棒的。也许他们之前根本不知道,原来这东西还能在 CPU 上跑,现在他们知道了。
你可以试试用 LM Studio 来获得更好的性能 —— 这是个更友好的替代方案,因为你可以根据自己的硬件情况,实时调整模型配置。这时候,骆驼(可能指某种模型)会更合适。还有个 cpp 的版本也可以看看。另外,建议你保留一些适合做推理和编码的模型在手边。在一些指令模型可能搞不定的情况下,这些模型可能会更有优势。还可以尝试 Unsloth 出的 (UD)Q4_K_XL 量化版本,相比 Q4_K_M,它能在保持智能程度的同时,帮你省下将近 1GB 的空间。
我喜欢Qwen模型,但他们总觉得这是件挺痛苦的事。后来我就改用Gemma了。
您需要登录后才可以回帖 立即登录
高级模式