嘿兄弟,现在你可以在170GB内存上本地运行 DeepSeekV3.1 了,用的是我们优化过的动态1位gguf模型。🐋
这个715GB的大模型,通过我们对层的巧妙量化,硬生生压缩到了170GB,体积减少了80%。
虽然开发时间比预期久了一点,但我们最终还是搞定了DeepSeek V3.1的动态imatrix GGUF版本,你可以在这里找到:https://huggingface.co/unsloth/DeepSeekV3.1GGUF。
还有一个TQ1_0版本(只是为了命名),大小也是170GB,它是专门为Ollama准备的单文件模型,可以通过ollama运行,地址是:hf.co/unsloth/DeepSeekV3.1GGUF:TQ1_0。
我们的动态量化技术,是根据层的重要性来决定用多少位(68bit)来压缩,重要的层保留更多精度,不重要的就压缩得更狠一些。在imatrix阶段,我们用了超过200万到300万的高质量校准数据来优化模型。
注意:要启用正确的聊天模板,必须加上 jinja 参数。你也可以设置 enable_thinking = True 或 thinking = True 来开启思考模式。
如果你用了其他量化方式,可能会遇到这个错误:“在引发std::runtime_error的实例后调用terminate (): split方法必须在1和1之间的位置参数和0之间的关键字参数在第3行,列1908”,这个问题我们在所有量化版本里都修复了!
官方推荐的运行参数是:temp 0.6 top_p 0.95
想把MoE层卸载到内存?用这个参数:ot ".Ffn_._exps=CPU"
想要支持更长的上下文?可以启用KV缓存量化。试试这些参数:cachetypek q8_0、q4_0、q4_1、iq4_nl、q5_0、q5_1,还有V量化。不过你得用支持Flash Attention的llama.cpp版本来编译。
想知道怎么运行它,或者更多细节,可以看我们的文档:https://docs.unsloth.ai/basics/deepseekv3.1
最后,我建议大家用 Q2_K_XL 或者 Q3_K_XL 的量化方式,效果真的很不错!

|