发帖
 找回密码
 立即注册
搜索
4 0 0
日常闲聊 771 4 12 小时前
大家好啊~好消息来了!现在你只需要 170GB 内存,就能在本地跑咱们最新的 DeepSeekV3.1 终端版模型了!🐋  
这个“终端”可不是普通升级,它在工具调用和代码生成这块儿比原版 V3.1 强太多了,可以说是全面进化!  
重点来了:我们做的动态量化 GGUF 版本表现超猛!比如这个 3bit 的 Unsloth DeepSeekV3.1(思维模式)GGUF,在 Aider Polyglot 测试里直接干到了 75.6% 的得分——连 Claude4Opus(思维版)都被它超过了!是不是有点东西?详细的实验结果我们都写进博客里了。  
👉 终端版 GGUF 模型下载地址:  
https://huggingface.co/unsloth/DeepSeekV3.1TerminusGGUF  
我们用了超聪明的层量化技术,把原本高达 715GB 的大模型压缩到了 170GB,整整小了 80%!但性能几乎没缩水。你可以用 llama.cpp 跑任意精度版本,包括全精度模型。  
特别贴心的是,我们也做了适配 Ollama 的版本(约 162GB),只要这么一行命令就能跑起来:  
OLLAMA_MODELS = unsloth_downloaded_models ollama serve &  
ollama run hf.co/unsloth/DeepSeekV3.1TerminusGGUF:TQ1_0  
📌 教程和更多细节看这里:  
https://docs.unsloth.ai/basics/deepseekv3.1  
感谢大家支持!快去试试看吧,跑得咋样一定记得告诉我们哈~😊  
──── 0人觉得很赞 ────

使用道具 举报

Unsloth 的这个动态方法其实挺聪明的,它的做法是:把模型里比较关键的那些层用高精度来存,比如 8 位,而那些不太重要的层呢,就用低精度,比如 2 位,省资源又不怎么掉性能。但这里有个挺关键的问题想问一下:你们在判断哪些层重要、哪些不重要的时候,有没有用到 Aider Polyglot 这个基准测试啊?不管是直接还是间接用的?
没错,你说得对!所有你需要了解的内容,咱们的指南里都写得明明白白了:https:// docs.unsloth.ai/basics/deepseekv3.1至于最低性能,可能差不多也就5个token/s吧?
你想用多大的系统内存啊?Qwen3235B这模型能跑得动吗?有啥办法可以运行它不?
如果你不着急的话,完全可以靠换汇来填上亏空
已经有了!我就是这么干的
能和llama.cpp一起用吗?
您需要登录后才可以回帖 立即登录
高级模式