国内唯一，阿里千问斩获NeurIPS 2025最佳论文奖

阿里千问斩获NeurIPS 2025最佳论文奖，成功揭秘模型性能提升原理。

11月27日，人工智能领域顶级会议NeurIPS 2025公布了论文奖，阿里通义千问团队在注意力机制上的研究成果从全球5524篇论文中脱颖而出，被评为最佳论文，是唯一获得该奖项的中国团队。该论文首次在业内揭秘了注意力门控对大模型性能和训练的影响，据悉，该研究成果已应用于Qwen3-Next模型，并显著提升模型的性能与鲁棒性。

阿里通义千问研究成果被评为NeurIPS 2025最佳论文

门控是大模型应用最广泛的技术之一，它可以作为模型的“智能降噪耳机”，帮助模型过滤无效信息从而提升模型性能。近年来，AlphaFold2、Forgetting Transformer等学术界和工业界模型开始探索将门控和注意力机制结合，但都对门控在注意力机制中有效的原因缺乏探索，也没有大规模实践的经验。

此次，通义千问团队通过在1.7B稠密模型（Dense）与15B混合专家模型（MoE）上训练超过 3.5 万亿 token，并对比 30 余组控制实验，首次清晰揭秘了其背后的原理，并展现了在注意力中使用门控形式最有效的方式及扩展成功实践。

注意力头是‌注意力机制中的基本计算单元。实验结果显示，对各注意力头的输出进行门控，是提升模型性能最有效的方式。使用该方式，在引入额外1%参数、计算开销增加低于2%的情况下，可以实现0.2以上的困惑度下降、MMLU基准评测2个点的提升。研究还发现，该技术还能在更大规模的模型训练上实现更好的性能。

国内唯一，阿里千问斩获NeurIPS 2025最佳论文奖

使用论文方法，在引入额外1%参数、计算开销增加低于2%的情况下，可以实现0.2以上的困惑度下降、MMLU基准评测2个点的提升

更深入的分析发现，注意力门控还解决了大模型长期存在的两大问题：注意力池（Attention Sink），即少量特殊token计算中产生很大的输出值、占据很高的注意力分数；巨量激活（Massive Activation），即模型激活中出现大于中位数数千倍的离群值。上述两个现象都容易在BF16等低精度训练中引发数值误差，影响训练稳定与低精度部署。该研究显示，门控注意力将首token的注意力占比从 46.7%降至4.8%，同时将最大激活值从1053降至94。

目前，该技术方案、实验模型及产品级模型均已开源。NeurIPS评审委员会表示：“我们认为该方法将被广泛采用，这项工作将极大推动社区对大语言模型中注意力机制的理解。”

通义千问团队表示：“对门控机制、模型机制等的深入理解，不仅为大语言模型架构设计提供了新思路，也为构建更稳定、更高效、更可控的大模型奠定了基础。”

据悉，目前阿里千问已开源300多款模型，涵盖全模态、全尺寸，全球下载量突破7亿次，衍生模型超过18万个，位居全球第一。

来源：至顶网人工智能频道

0赞

好文章，需要你的鼓励

国内唯一，阿里千问斩获NeurIPS 2025最佳论文奖

来源：至顶网人工智能频道

2025

11/27

11:28

分享

点赞

Littelfuse推出适用于电动汽车电池、电机和安全系统的汽车级电流传感器

CES 2026 | 机器人开发的“ChatGPT时刻”已到 老黄定调“物理AI”的路线图

超越能源使用：数据中心可持续运营策略

2026年超大规模数据中心运营商发展前瞻：全球最大数据中心运营商的未来走向

TOTOLINK EX200存在未修复固件漏洞可被完全远程接管

Ring推出Fire Watch功能，利用家庭摄像头追踪野火威胁

Snowflake与Google Gemini深度整合，全云环境支持数据分析

联想和摩托罗拉推出自有设备端AI助手

机器海龟游向环保使命：仿生技术守护珊瑚礁

CES 2026最酷笔记本电脑：可拆卸设计成为新趋势

AMD 在 CES 2026 发布新款锐龙处理器、Ryzen AI 及 AMD ROCm，全面扩展其在客户端、图形和软件领域的 AI 领先地位

AMD发布Instinct GPU新品挑战英伟达数据中心霸主地位

超1亿用户可随时唤醒千问，夸克发布最新AI浏览器

攻克物料搬运智能化最难挑战，中力股份联手星源智发布具身装卸技术

夸克"C计划"揭秘：上线“类豆包”AI对话助手，成为豆包劲敌？

蚂蚁发布万亿参数旗舰模型Ling-1T，开启蚂蚁百灵大模型2.0版

数据中心的智算挑战，英特尔要如何应对？

千里科技AI战略布局完成第一步，新品牌、新计划开启新阶段

阿里要用AI将云计算重做一遍

从预测到增效：蚂蚁数科升级推出能源时序大模型EnergyTS 2.0

人类有希望吗？在PEC 2025 AI创新者大会上，王飞跃教授给出“AI三问”

从读图到懂图，AI+金融理解力新升级

如果您非常迫切的想了解IT领域最新产品与技术信息，那么订阅至顶网技术邮件将是您的最佳途径之一

2025 re:Invent ：亚马逊云科技把Agentic AI生态梳理明白了

电子竞技瞬息万变，Team Liquid的“数据+AI”制胜秘籍

中国移动呼和浩特数据中心：只有高效存力先行，AI才能跑出全力

从“支撑工具”到“智能中枢”，AI原生ERP进化

关注官方公众号

关注官方微博

关注官方喜马拉雅

友情链接

业界热点:

CES 2026 | 机器人开发的“ChatGPT时刻”已到老黄定调“物理AI”的路线图