【快讯】Qwen3-Next-80B-A3B 发布

前沿情报 · 6 小时前

Qwen3-Next 是一种采用稀疏 MoE、线性注意力和多 token 预测的下一代架构，具备旗舰级的指令遵循和推理能力，在超长上下文理解与复杂任务处理方面表现出色。
其原生支持高达 262,144 个 token 的上下文长度。

Qwen Blog - Qwen3-Next：迈向更极致的训练推理性价比
Qwen Chat - 已上线 Qwen3-Next-80B-A3B 立即体验

不过测得的效果确实是与上代旗舰级模型大体相等，
就如所说的 “下代 flash 有上代 pro 效果”；
这个问题在当时找 Copilot 还要对话几轮才得正确答案，
到了 2025-02 左右，DS-R1 只用了一轮就给出了满分答卷，
现在再用 Copilot 的 “Think Deeper” 也能一次过了。

pxwwwd · 6 小时前

试了一下一个不常问的问题，感觉真挺不错的，大家都试试

不活 · 6 小时前

这个token的输出速度和LongCat差不多

gr2302484 · 5 小时前

白天起来试试看（昏迷）

shadowdow · 4 小时前

等ollama更新之后，看看在本地运行的速度怎么样

夏天的小夜曲 · 2 小时前

Cerebras WSE太厉害了

𠀡生悪忎 · 2 小时前

主要是要快
性能和 Qwen3 32B 相当
现在我比较关心最后适配完成后能有多快的速度

hijacker · 1 小时前

Qwen3Next80BA3B 代号为 qwenplus20250911，仍然分为instruct和thinking两个版本。

		自动登录	找回密码
密码			立即注册

资讯【快讯】Qwen3-Next-80B-A3B 发布

相关帖子

2 回复