发帖
 找回密码
 立即注册
搜索
1 0 0
日常闲聊 880 1 3 天前
不管是谁搞的这个项目,他们真的把Qwen3编码器提升到了一个新的高度。显存直接上到了34GB VRAM(用的是3080或者3090)。TPS能跑到80。CPU是i5,用核显来跑显示,DDR5内存32GB,13400频率。每次听到GPU风扇在全力运行时发出的“wrrrr”声,感觉它就像在拼命写新代码、修复错误,功耗直接飙到顶点,还挺带感的。
我这边是搞Java、JavaScript和Python的,不是那种随便玩玩的氛围,是正经干活的那种。用的是Q6_K量化版本,支持128K上下文长度。每次任务完成后还会自动生成新任务,这样LLM就一直保持在工作状态。
最开始那几个小时,表现直接超出预期。目前还没碰到啥瓶颈。后面还会继续分享更新。
──── 0人觉得很赞 ────

使用道具 举报

你是不是想问“怎么用张量并行达到80T/s?”啊?这个话题挺硬核的,咱可以聊聊具体是哪个框架或者模型结构,咱们一起研究研究怎么优化。
这个问题问得挺有意思的。其实你可以这么想,这个模型就像是在基础版 qwen3coder 上做了一次“升级打怪”后的加强版。为什么这么说呢?因为我们在训练过程中加入了很多新的数据、优化了模型结构,甚至可能用了更牛的训练方法。这就像是给模型“喂”了更多高质量的知识,还教了它一些新技能,比如更会写代码、更能理解复杂问题、甚至在生成内容上更接近人类的表达方式。至于你说的“如果这样更好,那 Qwen 为什么不自己做”——其实这就是我们正在做的!Qwen 一直在不断迭代、不断优化,每一版新模型都是在前一版的基础上更进一步。你看到的这个更好的模型,其实就是 Qwen 自己在“升级打怪”之后的新形态。所以不是 Qwen 不去做,而是我们已经做了 😄。模型的每一次更新,都是为了让你用起来更顺手、更强大。
请帮忙处理一下Poliglot基准测试?
模型链接:https://huggingface.co/BasedBase/Qwen3Coder30BA3BInstruct480BDistillV2
你好!你是想问怎么在两个不同显存的 GPU 上拆分模型吧?比如你有一个 12GB 的卡,还有一个 24GB 的卡,想一起用起来。目前 Ollama 本身不支持自动把模型拆到多个 GPU 上,更别说像你这种情况,两个卡显存还不一样了。它默认是挑一个 GPU 来跑模型,通常是选显存最大的那个。但如果你是技术控,想折腾一下,也不是完全没办法:1. 手动模型拆分(Model Parallelism)  
   你可以用 HuggingFace Transformers 或者其他框架,自己写点代码,把模型的不同层分配到不同的 GPU 上。比如前几层扔到 12GB 的卡,后面更吃显存的丢给 24GB 的卡。这需要一定的代码基础,而且模型越大越麻烦。2. 用一些第三方工具  
   比如 `accelerate` 库,或者 `DeepSpeed`,它们支持跨设备的模型并行。你可以用它们来配置,把模型按层或者按参数拆开,分别跑在两个 GPU 上。3. 量化 + 拆分  
   如果你用的是 Llama 系列模型,像 llama.cpp 这类项目已经支持 CPU 和 GPU 混合推理,甚至可以在不同 GPU 上分配不同的层。虽然它主要针对 CPU/GPU,但原理是相通的。总结一下:  
Ollama 目前不支持自动多卡拆分,特别是你这种“异构显存”的情况。如果你想用两个卡一起跑模型,可能得自己写点代码或者借助其他工具来搞定。如果你感兴趣,我可以给你一个简单的例子,教你怎么手动把模型拆到两个 GPU 上跑。需要吗?
我有 16GB 显存,看到我可以用到最大的 q3_km。想问问能在保持速度的同时,怎么搞点 CPU 卸载?
它永远比不上那些更大的“亲戚”模型。遇到棘手的问题时,我也会去搬更大的模型来解决。但说实话,我这个模型能搞定我99.99% 的日常工作。虽然我也可以在代码层面去修修补补,但那又怎样?意义在哪呢?!
就是随便问个问题哈,这个模型跟那些要付费的云模型比起来怎么样?我觉得它在很多方面应该都不错,尤其是还能本地跑,这点真的很赞。不过那些大的云模型,到底还在哪些地方更胜一筹呢?
我第二个!来试试看~链接:https://huggingface.co/BasedBase/Qwen3Coder30BA3BInstruct480BDistillV2
两块 RTX 5090(和其他人一起,但这位朋友已经够厉害了)。Llama.cpp——我从没见过它跑得这么快(Q8_0 模型):
你是想问有没有模型的链接吗?
您需要登录后才可以回帖 立即登录
高级模式