基于Base的/qwen3coder30ba3binstruct480bdistillv2 = 本地幸福

日常闲聊 · 3 天前

不管是谁搞的这个项目，他们真的把Qwen3编码器提升到了一个新的高度。显存直接上到了34GB VRAM（用的是3080或者3090）。TPS能跑到80。CPU是i5，用核显来跑显示，DDR5内存32GB，13400频率。每次听到GPU风扇在全力运行时发出的“wrrrr”声，感觉它就像在拼命写新代码、修复错误，功耗直接飙到顶点，还挺带感的。
我这边是搞Java、JavaScript和Python的，不是那种随便玩玩的氛围，是正经干活的那种。用的是Q6_K量化版本，支持128K上下文长度。每次任务完成后还会自动生成新任务，这样LLM就一直保持在工作状态。
最开始那几个小时，表现直接超出预期。目前还没碰到啥瓶颈。后面还会继续分享更新。

绿希儿 · 3 天前

你是不是想问“怎么用张量并行达到80T/s？”啊？这个话题挺硬核的，咱可以聊聊具体是哪个框架或者模型结构，咱们一起研究研究怎么优化。

Sprite · 3 天前

这个问题问得挺有意思的。其实你可以这么想，这个模型就像是在基础版 qwen3coder 上做了一次“升级打怪”后的加强版。为什么这么说呢？因为我们在训练过程中加入了很多新的数据、优化了模型结构，甚至可能用了更牛的训练方法。这就像是给模型“喂”了更多高质量的知识，还教了它一些新技能，比如更会写代码、更能理解复杂问题、甚至在生成内容上更接近人类的表达方式。至于你说的“如果这样更好，那 Qwen 为什么不自己做”——其实这就是我们正在做的！Qwen 一直在不断迭代、不断优化，每一版新模型都是在前一版的基础上更进一步。你看到的这个更好的模型，其实就是 Qwen 自己在“升级打怪”之后的新形态。所以不是 Qwen 不去做，而是我们已经做了 😄。模型的每一次更新，都是为了让你用起来更顺手、更强大。

17627255577 · 3 天前

请帮忙处理一下Poliglot基准测试？

mpf~🤖 · 3 天前

模型链接：https://huggingface.co/BasedBase/Qwen3Coder30BA3BInstruct480BDistillV2

Eric_H · 3 天前

你好！你是想问怎么在两个不同显存的 GPU 上拆分模型吧？比如你有一个 12GB 的卡，还有一个 24GB 的卡，想一起用起来。目前 Ollama 本身不支持自动把模型拆到多个 GPU 上，更别说像你这种情况，两个卡显存还不一样了。它默认是挑一个 GPU 来跑模型，通常是选显存最大的那个。但如果你是技术控，想折腾一下，也不是完全没办法：1. 手动模型拆分（Model Parallelism）
你可以用 HuggingFace Transformers 或者其他框架，自己写点代码，把模型的不同层分配到不同的 GPU 上。比如前几层扔到 12GB 的卡，后面更吃显存的丢给 24GB 的卡。这需要一定的代码基础，而且模型越大越麻烦。2. 用一些第三方工具
比如 `accelerate` 库，或者 `DeepSpeed`，它们支持跨设备的模型并行。你可以用它们来配置，把模型按层或者按参数拆开，分别跑在两个 GPU 上。3. 量化 + 拆分
如果你用的是 Llama 系列模型，像 llama.cpp 这类项目已经支持 CPU 和 GPU 混合推理，甚至可以在不同 GPU 上分配不同的层。虽然它主要针对 CPU/GPU，但原理是相通的。总结一下：
Ollama 目前不支持自动多卡拆分，特别是你这种“异构显存”的情况。如果你想用两个卡一起跑模型，可能得自己写点代码或者借助其他工具来搞定。如果你感兴趣，我可以给你一个简单的例子，教你怎么手动把模型拆到两个 GPU 上跑。需要吗？

Ivycipher · 3 天前

我有 16GB 显存，看到我可以用到最大的 q3_km。想问问能在保持速度的同时，怎么搞点 CPU 卸载？

呵呵！ · 前天 06:38

它永远比不上那些更大的“亲戚”模型。遇到棘手的问题时，我也会去搬更大的模型来解决。但说实话，我这个模型能搞定我99.99% 的日常工作。虽然我也可以在代码层面去修修补补，但那又怎样？意义在哪呢？!

mossy · 前天 07:46

就是随便问个问题哈，这个模型跟那些要付费的云模型比起来怎么样？我觉得它在很多方面应该都不错，尤其是还能本地跑，这点真的很赞。不过那些大的云模型，到底还在哪些地方更胜一筹呢？

mindydawn_yuan · 前天 09:38

我第二个！来试试看～链接：https://huggingface.co/BasedBase/Qwen3Coder30BA3BInstruct480BDistillV2

hzhthypf · 前天 10:01

两块 RTX 5090（和其他人一起，但这位朋友已经够厉害了）。Llama.cpp——我从没见过它跑得这么快（Q8_0 模型）：

瘦花 · 前天 21:07

你是想问有没有模型的链接吗？

		自动登录	找回密码
密码			立即注册

基于Base的/qwen3coder30ba3binstruct480bdistillv2 = 本地幸福

相关帖子

11 回复

浏览过的版块