现在你可以在本地设备上运行 DeepSeekV3.1 啦！

日常闲聊 · 2025-8-23 15:18:41

嘿兄弟，现在你可以在170GB内存上本地运行 DeepSeekV3.1 了，用的是我们优化过的动态1位gguf模型。🐋

这个715GB的大模型，通过我们对层的巧妙量化，硬生生压缩到了170GB，体积减少了80%。

虽然开发时间比预期久了一点，但我们最终还是搞定了DeepSeek V3.1的动态imatrix GGUF版本，你可以在这里找到：https://huggingface.co/unsloth/DeepSeekV3.1GGUF。

还有一个TQ1_0版本（只是为了命名），大小也是170GB，它是专门为Ollama准备的单文件模型，可以通过ollama运行，地址是：hf.co/unsloth/DeepSeekV3.1GGUF:TQ1_0。

我们的动态量化技术，是根据层的重要性来决定用多少位（68bit）来压缩，重要的层保留更多精度，不重要的就压缩得更狠一些。在imatrix阶段，我们用了超过200万到300万的高质量校准数据来优化模型。

注意：要启用正确的聊天模板，必须加上 jinja 参数。你也可以设置 enable_thinking = True 或 thinking = True 来开启思考模式。

如果你用了其他量化方式，可能会遇到这个错误：“在引发std::runtime_error的实例后调用terminate (): split方法必须在1和1之间的位置参数和0之间的关键字参数在第3行，列1908”，这个问题我们在所有量化版本里都修复了！

官方推荐的运行参数是：temp 0.6 top_p 0.95

想把MoE层卸载到内存？用这个参数：ot ".Ffn_._exps=CPU"

想要支持更长的上下文？可以启用KV缓存量化。试试这些参数：cachetypek q8_0、q4_0、q4_1、iq4_nl、q5_0、q5_1，还有V量化。不过你得用支持Flash Attention的llama.cpp版本来编译。

想知道怎么运行它，或者更多细节，可以看我们的文档：https://docs.unsloth.ai/basics/deepseekv3.1
最后，我建议大家用 Q2_K_XL 或者 Q3_K_XL 的量化方式，效果真的很不错！

jeanefu · 2025-8-23 15:20:20

如果你只有 RAM，没有统一内存或者 GPU 的话，那大概只有每秒 3 到 10 个字的速度，这样大概要等一分钟才能完成。但如果你用了 GPU 或者统一内存，那只需要 10 秒就够了。

洗尽铅华 · 2025-8-23 15:22:18

嘿！没错，Solo挺适合用来调物理AI的模型，但我觉得DeepSeek 3.1对边缘硬件来说，还是有点太大了

黑草喜 · 2025-8-23 15:36:19

它能跟Solo一起用吗？

小兔 · 2025-8-23 21:32:43

哈哈，这句话可以这样口语化地表达：玩 lol 的时候，感觉对面那家伙的操作跟个没脑子的AI似的，完全不知道在干嘛！

快活林的猪 · 2025-8-24 01:22:29

哎，我这明明有块24G显存的3090显卡，内存也给到了128G，眼瞅着条件都这么到位了，可结果还是差那么一口气...

kui2004 · 2025-8-24 11:41:28

不客气！我现在看到 Ollama 的指南了。

xiaoxiao3 · 2025-8-24 21:07:31

这是 MOE 架构，搭配了我们自家的动态量化方法。这和传统的标准量化差别挺大的：
https://docs.unsloth.ai/基础/unslothdynamic2.0ggufs 之前大家常在上用来测试的模型，比如 heptagon、flappy bird 这些，我们都跑通了。另外也别忘了，你可以用我们提供的 Q8 量化版本，照样能跑出全精度的效果！！

loooog · 2025-8-25 14:02:41

我们之前还在笑话那个最大的（我觉得现在应该还是吧？）开源模型被压缩得太狠了。但其实，如果不是一味追求极限，稍微保守一点的压缩方法也能行得通。关键是把精力放在训练上，比如精简数据集、聪明地做量化（quanting）这些方面。这些方向其实潜力巨大，对于小团队来说，比跟OpenAI和DeepSeek这种拼“谁多烧几十亿参数”要现实得多。比如，把70B的模型压缩到只剩3.5位还能保持稳定，或者把32B的模型缩小到1112B，同时还能保持智能水平。说白了，就是把原本厉害的模型“降维打击”到能跑在一块GPU上。想想一年前我们在哪？那时候有人提出一个1.5B参数的模型就够很多人用了，哪怕只是干一件很专的事，听起来都像个笑话。但现在，这种模型已经存在了。虽然还不算多，但确实有了。我现在就挺开心的，生活在一个我可以用4B或9B参数的小模型来做网络搜索助手的世界。我还可以用0.5B的模型来检查JSON格式，或者用3B的模型来处理文档。我现在已经有十几GB的模型，分成六七个专才小模型，它们各自干好自己的活，就像一把把趁手的小工具：刀、叉、螺丝刀啥的。相比之下，那种32B的大模型虽然啥都能干，但又慢又笨重，就像是把一把勉强能当武器的破叉子当万能工具使。说白了，我可以用勺子去撬开UPS的包裹……但那得多费劲，最后还不一定弄得好，场面可能一团糟。

hh2008 · 2025-8-29 12:23:18

这图是说你能在24GB显存的显卡上跑这个模型的某个版本。有大佬能给我讲讲这是怎么实现的吗？或者告诉我该去哪里看相关的文档？

		自动登录	找回密码
密码			立即注册

交流现在你可以在本地设备上运行 DeepSeekV3.1 啦！

相关帖子

9 回复

浏览过的版块

第一篇帖