中国AI公司DeepSeek推出新训练方法或再次颠覆行业

中国AI公司DeepSeek发布论文介绍流形约束超连接(mHC)方法，可能为工程师提供低成本构建和扩展大语言模型的新路径。该方法旨在解决神经网络层数增加时信号衰减问题，通过约束模型内超连接性来保持信息复杂性的同时避免内存问题。这一技术框架可能应用于即将发布的R2模型，延续了DeepSeek通过巧妙工程突破而非巨额资本实现AI前沿模型开发的理念。

就在新年伊始，AI界迎来了一个可能改变游戏规则的全新模型训练方法。

中国AI公司DeepSeek的研究团队在周三发布了一篇论文，介绍了他们称为"流形约束超连接"（Manifold-Constrained Hyper-Connections，简称mHC）的方法，这可能为工程师提供了一条构建和扩展大语言模型的新路径，而无需通常所需的巨额计算成本。

一年前，DeepSeek凭借其发布的R1模型一跃成为文化焦点，该模型能够匹敌OpenAI的o1模型，据报道训练成本仅为后者的一小部分。这一发布令美国的科技开发者感到震惊，因为它表明训练尖端AI模型并不一定需要巨额资本和计算资源。

新的mHC论文可能成为DeepSeek即将推出的R2模型的技术框架。R2模型原计划在去年年中发布，但由于中国获得先进AI芯片的途径受限，以及该公司首席执行官梁文锋对模型性能的担忧，发布被推迟。

这篇发表在预印本服务器网站arXiv上的论文，试图弥合阻碍AI模型可扩展性的一个复杂而重要的技术缺口。arXiv是一个流行的在线资源平台，研究人员可以在此分享尚未经过同行评议的研究结果。

大语言模型基于神经网络构建，而神经网络的设计目标是在多个层级间保持信号传输。问题在于，随着层级的增加，信号变得更容易衰减或降级，变成噪声的风险也更大。这有点像传话游戏：参与的人越多，原始信息被混淆和改变的可能性就越高。

因此，核心挑战是构建能够在尽可能多的层级中保持信号的模型——或者如DeepSeek研究人员在新论文中所描述的"更好地优化可塑性和稳定性之间的权衡"。

这篇新论文的作者包括DeepSeek首席执行官梁文锋，他们在超连接（HCs）框架的基础上进行构建。超连接是2024年由字节跳动研究人员提出的框架，它增加了神经网络层级间信息共享的通道数量。然而，HCs存在原始信号在传输过程中丢失的风险（再次想象传话游戏中不断增加的参与者），同时还带来高内存成本，使其难以大规模实施。

mHC架构旨在通过约束模型内的超连接性来解决这个问题，从而在保持HCs所带来的信息复杂性的同时，规避内存问题。这反过来可以允许以一种对较小、资金紧张的开发者来说既实用又可扩展的方式训练高度复杂的模型。

正如2025年1月R1模型的发布一样，mHC框架的首次亮相可能暗示着AI发展的新方向。

迄今为止，在AI竞赛中，普遍的观点是只有最大、最有资金实力的公司才能负担得起构建前沿模型的成本。但DeepSeek不断证明变通方法是可能的，仅通过巧妙的工程设计就能实现突破。

该公司发布其mHC方法的新研究这一事实意味着，这种方法可能被较小的开发者广泛采用，特别是如果它最终被备受期待的R2模型所采用（该模型的发布日期尚未正式公布）。

Q&A

Q1：什么是流形约束超连接技术？

A：流形约束超连接（mHC）是DeepSeek开发的一种新的AI模型训练方法。它基于超连接框架，通过约束模型内的超连接性来解决信号传输中的衰减问题，在保持信息复杂性的同时降低内存成本，让小公司也能训练复杂的大语言模型。

Q2：DeepSeek的R1模型为什么会引起轰动？

A：DeepSeek的R1模型能够匹敌OpenAI的o1模型性能，但训练成本据报道仅为后者的一小部分。这令美国科技开发者震惊，因为它证明了训练尖端AI模型并不一定需要巨额资本和计算资源，打破了此前的行业认知。

Q3：mHC技术对AI行业有什么意义？

A：mHC技术可能改变AI行业的发展方向。它为资金有限的小开发者提供了构建前沿模型的可能，挑战了"只有大公司才能负担得起前沿AI开发"的观点。如果被DeepSeek的R2模型采用并证明有效，这种方法可能被业界广泛采用。

来源：ZDNET

0赞

好文章，需要你的鼓励

中国AI公司DeepSeek推出新训练方法或再次颠覆行业

来源：ZDNET

2026

01/04

08:10

分享

点赞

Uber年度遗失物报告揭示：数千件物品遗留在无人驾驶出租车中

Uber今年将部署500辆数据采集车辆，助力自动驾驶发展

Uber、Wayve与Waymo的伦敦无人驾驶出租车大战即将开启

Mobileye计划2027年在美国推出自动驾驶出租车服务

Waymo召回近4000辆无人出租车，原因是其进入高速公路施工区域

特斯拉在奥斯汀开始测试无方向盘无踏板Cybercab量产版

图灵奖得主Patterson：摩尔定律的真相，CPU、GPU、TPU的诞生与分工

Omdia报告：Dell PowerProtect助力企业三年期网络弹性TCO最高降低61%

“驯服”千亿模型，鏖战“黑猴打瓦”，龙虾“一键接管” ，锐龙AI Max+ 395开启全能桌面AI主机“王炸”时刻

豪声电子泰国电声工厂初步投产：2500万泰铢项目进入产能爬坡

地瓜机器人将560TOPS端侧算力，加载到了20+头部团队机器人中

WAIC 2026主论坛（下午场）重磅揭晓！

Grok不能为生成非同意性图像"道歉"，其回应只是算法生成

AI投资有望在2026年获得真正回报的原因解析

2026年软件定价大洗牌：IT领导者必须知道的关键变化

Linux 在 2026 年将势不可挡，但一个开源传奇可能难以为继

CES 2026趋势展望：全球最大科技展五大热门话题预测

人工智能时代为何编程技能比以往更重要

AI颠覆云优先战略：混合计算成为唯一出路

谷歌发布JAX-Privacy 1.0：大规模差分隐私机器学习工具库

谷歌量子AI发布新型优化算法DQI：量子计算优化领域的重大突破

缓解电动汽车里程焦虑：简单AI模型如何预测充电桩可用性

如果您非常迫切的想了解IT领域最新产品与技术信息，那么订阅至顶网技术邮件将是您的最佳途径之一

三一集团：数字化是必选项，AI是生存项

因湃电池 × 达索系统：如何共创出一套电池产业最佳实践

AI走进真实世界之后：安全、健康与产业的新命题

CES 2026

关注官方公众号

关注官方微博

关注官方喜马拉雅

友情链接

业界热点: