发帖
 找回密码
 立即注册
搜索
2 0 0
前沿情报 182 2 6 小时前
Qwen3-Next 是一种采用稀疏 MoE、线性注意力和多 token 预测的下一代架构,具备旗舰级的指令遵循和推理能力,在超长上下文理解与复杂任务处理方面表现出色。
其原生支持高达 262,144 个 token 的上下文长度。


不过测得的效果确实是与上代旗舰级模型大体相等,
就如所说的 “下代 flash 有上代 pro 效果”;
这个问题在当时找 Copilot 还要对话几轮才得正确答案,
到了 2025-02 左右,DS-R1 只用了一轮就给出了满分答卷,
现在再用 Copilot 的 “Think Deeper” 也能一次过了。

──── 0人觉得很赞 ────

使用道具 举报

试了一下一个不常问的问题,感觉真挺不错的,大家都试试
这个token的输出速度和LongCat差不多
白天起来试试看(昏迷)
等ollama更新之后,看看在本地运行的速度怎么样
Cerebras WSE太厉害了
主要是要快
性能和 Qwen3 32B 相当
现在我比较关心最后适配完成后能有多快的速度
Qwen3Next80BA3B 代号为 qwenplus20250911,仍然分为instruct和thinking两个版本。  
您需要登录后才可以回帖 立即登录
高级模式