发帖
 找回密码
 立即注册
搜索
0 0 0
资源分享 393 0 6 小时前

9e1ece3da9d674267455c41ce18a5aeec286c177.webp
https://xcancel.com/huybery/status/1965426710998122546#m

d54ed6a7afb7e4cd290db437f607a8582ccc625c.webp
https://xcancel.com/JustinLin610/status/1965420583400898651#m
aeb7cf414e9eda6dd925b9fd44a221c6e42ec1cb.webp

Adding Support for Qwen3-Next:https://github.com/huggingface/transformers/pull/40771

概述

Qwen3-Next 系列代表我们下一代基础模型,专为极端上下文长度和大规模参数效率优化。该系列引入了一套架构创新,旨在在最小化计算成本的同时最大化性能:

  • 混合注意力:用 Gated DeltaNet 和 Gated Attention 的组合替代标准注意力,实现高效的上下文建模。
  • 高稀疏 MoE:在 MoE 层实现极低的激活率,达到 1:50——大幅降低每个 token 的 FLOPs,同时保持模型容量。
  • 多标记预测(MTP):提升预训练模型性能,并加速推理。
  • 其他优化:包括零中心化和权重衰减层归一化、门控注意力等技术,以及其他用于稳健训练的稳定增强功能。

基于此架构,我们训练并开源了 Qwen3-Next-80B-A3B ——总参数量 80B,仅 3B 为活跃参数——实现了极致的稀疏性和效率。

尽管极其高效,它在下游任务中仍优于 Qwen3-32B——同时训练成本不到 1/10。此外,在处理超过 32K 标记的上下文时,其推理吞吐量比 Qwen3-32B 高出 10 倍以上。

──── 0人觉得很赞 ────

使用道具 举报

这么厉害!这性能咋样?等我先去瞧瞧。
图片
1152×200
24.1 KB
就Claude和谷歌而言,它们基本上不会透露自身的架构信息,这属于商业秘密。甚至它们是否使用了Transformer架构,这本身也是一个秘密 。  
克劳德研究团队一直发表的论文显示,
他们仍在对Transformer架构进行改进。
而且其性能与目前国内头部模型相比,差距并不是很大。
再加上他们需要借助新闻来吸引投资,所以我觉得他们并没有采用具有突破性的新架构。
闭源的话,不出意外也是魔改的Transformer。
不然他们肯定会发篇论文来宣扬一番,就像以前的Mamba那样。
您需要登录后才可以回帖 立即登录
高级模式