企业网站建设模板做菠菜网站好赚吗-河源市网站建设公司-Seo优化

企业网站建设模板,做菠菜网站好赚吗,考研培训机构排名,wordpress多站点教程来源#xff1a;通义千问Qwen刚刚#xff0c;人工智能领域顶级会议 NeurIPS 2025公布了论文奖#xff0c;我们关于 Gated Attention 的成果论文从全球5524篇论文中脱颖而出#xff0c;斩获最佳论文奖#xff01;“本文的主要发现易于实现#xff0c;并且论文提供了大量证…来源通义千问Qwen刚刚人工智能领域顶级会议 NeurIPS 2025公布了论文奖我们关于 Gated Attention 的成果论文从全球5524篇论文中脱颖而出斩获最佳论文奖“本文的主要发现易于实现并且论文提供了大量证据支持对 LLM 架构的这种改进我们预计这一想法将被广泛采用。本文的成果耗费大量工作只有利用工业规模的计算资源才能完成而论文团队直接分享了他们的研究成果这将增进社区对大型语言模型中注意力机制的理解尤其是在LLM领域科学成果开放共享逐渐减少的背景下这种做法非常值得称赞。”——NeurIPS 2025评委会NeurIPS 获奖链接https://blog.neurips.cc/2025/11/26/announcing-the-neurips-2025-best-paper-awards/正文在大语言模型持续向更大规模、更长上下文演进的过程中训练稳定性与注意力行为的可控性日益成为关键瓶颈。门控机制的有效性已经被广泛证实但其在注意力机制中的有效性及扩展scaling up的能力并未被充分讨论。在通义千问团队的论文《Gated Attention for Large Language Models: Non-linearity, Sparsity, and Attention-Sink-Free》中研究团队系统性地分析了门控机制对大语言模型的有效性并通过一系列控制实验证明了门控机制的有效性来源于增强了注意力机制中的非线性与提供输入相关的稀疏性。此外团队还进一步发现了门控机制能消除注意力池Attention Sink和巨量激活Massive Activation等现象提高了模型的训练稳定性极大程度减少了训练过程中的损失波动loss spike。得益于门控机制对注意力的精细控制模型在长度外推上相比基线得到了显著的提升。团队在各个尺寸、架构、训练数据规模上验证了方法的有效性并最终成功运用到了 Qwen3-Next 模型中。论文链接https://openreview.net/forum?id1b7whO4SfY代码链接https://github.com/qiuzh20/gated_attention门控并非新概念但在注意力中被低估影响门控并非新概念。从 LSTM 中的遗忘门到现代 FFN 中的 SwiGLU再到 Mamba 等状态空间模型门控始终扮演着调节信息流、增强非线性表达的角色。近年来研究者也尝试将门控引入注意力机制——AlphaFold2、Forgetting Transformer 等工作都在 Softmax 注意力输出端加入了门控。然而这些尝试大多将其作为整体架构的一部分缺乏对门控本身作用的系统解耦。千问团队通过在 1.7B 密集模型与 15B 混合专家模型MoE上训练超过 3.5 万亿 token并对比 30 余组控制实验首次清晰回答了三个关键问题如何在注意力中使用门控形式最有效它为何有效如何能在大模型中更好使用该机制SDPA 输出门控最优实践实验发现在 Scaled Dot-Product AttentionSDPA输出后即加权 Value 之后、输出映射之前添加一个头专属、逐元素、Sigmoid、乘性门控是提升模型性能最有效的方式。该门控的数学形式为其中是 SDPA 的输出即是当前 token 的经过注意力层 pre-norm 后的隐藏状态用于生成门控分数是可学习参数为 Sigmoid 激活函数表示逐元素相乘。这一设计使门控分数依赖于当前查询 tokenquery-dependent从而实现动态信息过滤。该改动仅引入额外1%参数却能稳定带来 0.2 以上的困惑度下降和 1–2 个点的 MMLU/Hellaswag 等评测提升。更重要的是它显著增强了训练稳定性在 1.7B 模型上使用 8e-3 的学习率时基线模型严重发散而门控模型仍能收敛且性能更优。这表明门控不仅提升性能还为更大规模训练打开了超参空间。引入非线性突破注意力的低秩瓶颈在标准多头注意力中Value 投影与输出投影构成连续两层线性变换。对于第个注意力头第个 token 查询第tokens 的输出可表示为其中是注意力分数是第个 token 的输入。由于头维度本质上是一个低秩线性映射严重限制了模型的表达能力。门控机制在与之间引入了非线性函数等价于G2Value 输出门控:G1SDPA 输出门控:我们还发现在 G1 和 G2 位置添加 Layernorm 等方法同样能带来相对基线的提升这进一步证明了我们的猜想。然而虽然在 G1 和 G2 位置使用门控均能提升表达能力但 G1 效果更优——这引出了第二个关键机制。输入相关的稀疏性动态过滤无关上下文分析显示SDPA 输出门控的平均门控值仅为 0.116且分布高度集中在 0 附近表明其具有强稀疏性。更重要的是该门控于当前查询 token 的隐藏状态计算因此是查询依赖的query-dependent——模型能动态判断“哪些历史上下文对当前 token 无关”并主动抑制其贡献。相比之下Value 层门控G2基于历史 token 的状态计算无法感知当前查询意图其门控值更高0.221稀疏性更弱性能也相应较差。若强制使用非稀疏门控如将 Sigmoid 输出限制在 [0.5, 1.0] 区间或采用输入无关的可学习常数门控性能增益将大幅减弱退化到仅有增强非线性带来的提升。这进一步证明有效的门控必须是稀疏且由当前 token 驱动的。消除“注意力池”与“巨量激活”我们进一步分析模型内部的状态发现SDPA 输出门控还解决了两个长期存在的问题:注意力池Attention Sink在标准 LLM 中首 token 平均占据 46.7% 的注意力分数并对应着巨大的 logits 数值容易导致训练不稳定巨量激活Massive Activation早期 FFN 层输出的隐藏状态数值常超过 1000很容易在 BF16 等低精度训练中引发数值误差影响训练稳定与低精度部署。门控注意力将首 token 的注意力占比降至 4.8%同时将最大激活值从 1053 降至 94。值得注意的是Value 层门控虽能抑制巨量激活却无法消除注意力池说明巨量激活并不是注意力池的充分要条件。只有通过查询相关的稀疏门控才能同时根除这两个现象。其背后的直觉是注意力池本质上是一种“被动稀释”机制——通过将大量注意力分配给首 token来压低其他无关 token 的分数而门控则是一种“主动过滤”机制——直接将无关上下文的贡献置零因此无需依赖固定的 sink token。长上下文泛化无需重训性能跃升得益于“无注意力池”的特性门控模型在长度外推任务中表现卓越。在使用 YaRN 将上下文从 32K 扩展至 128K 的实验中基线模型在 128K 长度下的 RULER 得分仅为 31.7而门控模型达到 58.8领先近 27 个点。一种可能的解释是基线模型依赖固定的注意力池来调节 Softmax 分母当上下文长度变化时这种静态机制难以适应而门控模型通过动态门控分数调节信息流具备更强的泛化能力无需重训即可稳健处理超长序列。工程建议与落地实践为最大化收益我们推荐以下配置位置SDPA 输出后、输出映射前形式每个注意力头独立、逐元素、Sigmoid激活函数、乘性门控训练可适度提高学习率以充分利用其带来的稳定性增益兼容性适用于 Dense、MoE、GQA 等各种架构。该方案已在Qwen3-Next系列模型中落地并成为其性能与鲁棒性的关键技术支撑。我们建议在预训练阶段即引入该机制因其对训练动态的影响在继续训练continue pretraining中难以体现。为促进社区研究团队已开源相关代码 (https://github.com/qiuzh20/gated_attention)、实验性的“无注意力池”模型 (https://huggingface.co/QwQZh/gated_attention) 与产品级的模型 Qwen3-Next (https://qwen.ai/blog?idqwen3-next)。我们相信对门控机制、模型机制等的深入理解不仅为 LLM 架构设计提供了新思路也为构建更稳定、更高效、更可控的大模型奠定了基础。·················END·················分享收藏点赞在看

企业网站建设模板做菠菜网站好赚吗

学校网站官网杭州软件定制开发app

珠海响应式网站建设价格临沂网站建设模板

17做网站郑州wordpress 重定向插件

厦门网站推广优化哪家好全面的基础微网站开发

网站改版对网站优化影响最大的问题是什么seo 网站改版

中国采招网官方网站wordpress 图片浏览器