发帖
 找回密码
 立即注册
搜索
3 0 0
前沿技术 155 3 昨天 14:38
嘿,大家!可能你们还不知道,通义千问发布了Qwen3Coder,这是一款在编码和智能体任务方面能与GPT4.1以及Claude 4Sonnet相媲美的前沿模型。我们把这个拥有4800亿参数的模型体积缩小到了仅150GB(原来是512GB)。而且,它能在100万个上下文长度下运行。如果你想以全精度运行该模型,可以使用我们的Q8量化方案。在150GB统一内存,或者135GB随机存取存储器(RAM)加上16GB显存(VRAM)的配置下,每秒能处理超过6个令牌。运行Qwen3Coder的GGUF文件链接:https://huggingface.co/unsloth/Qwen3Coder480BA35BInstructGGUF祝大家运行顺利!别忘了查看我们关于Qwen3Coder的教程,里面介绍了如何通过优化设置和配置来实现快速推理:https://docs.unsloth.ai/basics/qwen3coder  
──── 0人觉得很赞 ────

使用道具 举报

很高兴听到(你的回复)。我之所以这么问,是因为我正计划围绕一款显存上限为128GB的Strix Halo芯片搭建一个大语言模型(LLM)系统。谢谢!
谢谢!
原句拼写有误,正确的句子应该是 “Would appreciate it” ,意思是:会很感激(此事) 。但在日常中文习惯里,更常表达为:
会很感激。  
我也是个新手。当我尝试用这个在openwebui中拉取模型时,遇到了以下错误。我用的是最新版的ollama主分支。hf.co/unsloth/Qwen3Coder480BA35BInstructGGUF拉取模型清单时出错:400 错误,提示信息为 {"error":"指定的存储库包含分片的GGUF。Ollama目前还不支持这个。更多信息请关注此问题:https://github.com/ollama/ollama/issues/5245"}
上下文长度会是多少?我用的配置完全一样。
在这么小的量化级别下,性能下降情况如何?它还能用吗?和比如Llama 3.3 70B相比怎么样?  
你觉得用24GB显存的RX7900 XTX显卡和128GB内存(这样总体能达到150GB)来运行值得一试吗?还是说对于实际的编程工作来说,速度会慢得让人难以忍受?  
您需要登录后才可以回帖 立即登录
高级模式