你好,我最近在家用服务器上折腾了一下本地的大语言模型(LLMs)。说实话,我一开始没抱太大希望,毕竟我的设备只是个英特尔NUC 13i7,64G内存,没有独立显卡。
我试了Qwen3的4B模型,发现它居然能跑起来,而且效果还不错,模型体积也挺小巧的。不过说实话,用起来更像是个有趣的玩具,因为跟GPT、DeepSeek或者Gemini之类的模型比起来,它的回答还是差了点意思。
说说我的环境吧:我是在Proxmox上通过Docker跑了一个Debian 12的LXC容器,用来运行Ollama和OpenWebUI,纯CPU模式。Qwen3 4B的q4_k_m版本,我能跑到大概每秒10个token,已经挺满意了。这个LXC分配了6个vcore和38G内存专门给它用。
但后来我试了个新出的MoE模型,Qwen330BA3B2507,同样用q4_k_m量化版本……结果让我大吃一惊!不仅跑得比4B还快,回复质量也更好。特别是它的“思维链”模式,简直让我开心坏了。这个30B模型我能跑到1112个token每秒!
我还用Vulkan在我的7900XT显卡上跑了同样的模型,结果跑到了40个token,确实快不少。不过话说回来,我这NUC功耗才80瓦左右,就能跑到12 token,已经很划算了。谁会24小时开着显卡干这事啊。
这算是我这套小设备能跑出的极限了吗?我也试过Mixtral 8x7B,但不太喜欢,主要是它不支持Markdown和LaTeX之类的格式,而且经常莫名其妙用西班牙语“Hola!”开头,挺烦的。
总之,本地LLMs真香! |