现在你可以在自己的设备上本地运行 DeepSeekV3.1Terminus 啦！

日常闲聊 · 12 小时前

大家好啊～好消息来了！现在你只需要 170GB 内存，就能在本地跑咱们最新的 DeepSeekV3.1 终端版模型了！🐋
这个“终端”可不是普通升级，它在工具调用和代码生成这块儿比原版 V3.1 强太多了，可以说是全面进化！
重点来了：我们做的动态量化 GGUF 版本表现超猛！比如这个 3bit 的 Unsloth DeepSeekV3.1（思维模式）GGUF，在 Aider Polyglot 测试里直接干到了 75.6% 的得分——连 Claude4Opus（思维版）都被它超过了！是不是有点东西？详细的实验结果我们都写进博客里了。
👉 终端版 GGUF 模型下载地址：
https://huggingface.co/unsloth/DeepSeekV3.1TerminusGGUF
我们用了超聪明的层量化技术，把原本高达 715GB 的大模型压缩到了 170GB，整整小了 80%！但性能几乎没缩水。你可以用 llama.cpp 跑任意精度版本，包括全精度模型。
特别贴心的是，我们也做了适配 Ollama 的版本（约 162GB），只要这么一行命令就能跑起来：
OLLAMA_MODELS = unsloth_downloaded_models ollama serve &
ollama run hf.co/unsloth/DeepSeekV3.1TerminusGGUF:TQ1_0
📌 教程和更多细节看这里：
https://docs.unsloth.ai/basics/deepseekv3.1
感谢大家支持！快去试试看吧，跑得咋样一定记得告诉我们哈～😊

热树虎 · 12 小时前

Unsloth 的这个动态方法其实挺聪明的，它的做法是：把模型里比较关键的那些层用高精度来存，比如 8 位，而那些不太重要的层呢，就用低精度，比如 2 位，省资源又不怎么掉性能。但这里有个挺关键的问题想问一下：你们在判断哪些层重要、哪些不重要的时候，有没有用到 Aider Polyglot 这个基准测试啊？不管是直接还是间接用的？

Jeremywhami · 12 小时前

没错，你说得对！所有你需要了解的内容，咱们的指南里都写得明明白白了：https:// docs.unsloth.ai/basics/deepseekv3.1至于最低性能，可能差不多也就5个token/s吧？

胖龙子 · 12 小时前

你想用多大的系统内存啊？Qwen3235B这模型能跑得动吗？有啥办法可以运行它不？

xiaoshu06 · 12 小时前

如果你不着急的话，完全可以靠换汇来填上亏空

大山光 · 11 小时前

已经有了！我就是这么干的

zhufup · 2 小时前

能和llama.cpp一起用吗？

		自动登录	找回密码
密码			立即注册

现在你可以在自己的设备上本地运行 DeepSeekV3.1Terminus 啦！

相关帖子

4 回复

浏览过的版块