Qwen3-Next 是一种采用稀疏 MoE、线性注意力和多 token 预测的下一代架构,具备旗舰级的指令遵循和推理能力,在超长上下文理解与复杂任务处理方面表现出色。
其原生支持高达 262,144 个 token 的上下文长度。
不过测得的效果确实是与上代旗舰级模型大体相等,
就如所说的 “下代 flash 有上代 pro 效果”;
这个问题在当时找 Copilot 还要对话几轮才得正确答案,
到了 2025-02 左右,DS-R1 只用了一轮就给出了满分答卷,
现在再用 Copilot 的 “Think Deeper” 也能一次过了。
|