中国AI公司DeepSeek推出新训练方法或再次颠覆行业

中国AI公司DeepSeek发布论文介绍流形约束超连接(mHC)方法,可能为工程师提供低成本构建和扩展大语言模型的新路径。该方法旨在解决神经网络层数增加时信号衰减问题,通过约束模型内超连接性来保持信息复杂性的同时避免内存问题。这一技术框架可能应用于即将发布的R2模型,延续了DeepSeek通过巧妙工程突破而非巨额资本实现AI前沿模型开发的理念。

就在新年伊始,AI界迎来了一个可能改变游戏规则的全新模型训练方法。

中国AI公司DeepSeek的研究团队在周三发布了一篇论文,介绍了他们称为"流形约束超连接"(Manifold-Constrained Hyper-Connections,简称mHC)的方法,这可能为工程师提供了一条构建和扩展大语言模型的新路径,而无需通常所需的巨额计算成本。

一年前,DeepSeek凭借其发布的R1模型一跃成为文化焦点,该模型能够匹敌OpenAI的o1模型,据报道训练成本仅为后者的一小部分。这一发布令美国的科技开发者感到震惊,因为它表明训练尖端AI模型并不一定需要巨额资本和计算资源。

新的mHC论文可能成为DeepSeek即将推出的R2模型的技术框架。R2模型原计划在去年年中发布,但由于中国获得先进AI芯片的途径受限,以及该公司首席执行官梁文锋对模型性能的担忧,发布被推迟。

这篇发表在预印本服务器网站arXiv上的论文,试图弥合阻碍AI模型可扩展性的一个复杂而重要的技术缺口。arXiv是一个流行的在线资源平台,研究人员可以在此分享尚未经过同行评议的研究结果。

大语言模型基于神经网络构建,而神经网络的设计目标是在多个层级间保持信号传输。问题在于,随着层级的增加,信号变得更容易衰减或降级,变成噪声的风险也更大。这有点像传话游戏:参与的人越多,原始信息被混淆和改变的可能性就越高。

因此,核心挑战是构建能够在尽可能多的层级中保持信号的模型——或者如DeepSeek研究人员在新论文中所描述的"更好地优化可塑性和稳定性之间的权衡"。

这篇新论文的作者包括DeepSeek首席执行官梁文锋,他们在超连接(HCs)框架的基础上进行构建。超连接是2024年由字节跳动研究人员提出的框架,它增加了神经网络层级间信息共享的通道数量。然而,HCs存在原始信号在传输过程中丢失的风险(再次想象传话游戏中不断增加的参与者),同时还带来高内存成本,使其难以大规模实施。

mHC架构旨在通过约束模型内的超连接性来解决这个问题,从而在保持HCs所带来的信息复杂性的同时,规避内存问题。这反过来可以允许以一种对较小、资金紧张的开发者来说既实用又可扩展的方式训练高度复杂的模型。

正如2025年1月R1模型的发布一样,mHC框架的首次亮相可能暗示着AI发展的新方向。

迄今为止,在AI竞赛中,普遍的观点是只有最大、最有资金实力的公司才能负担得起构建前沿模型的成本。但DeepSeek不断证明变通方法是可能的,仅通过巧妙的工程设计就能实现突破。

该公司发布其mHC方法的新研究这一事实意味着,这种方法可能被较小的开发者广泛采用,特别是如果它最终被备受期待的R2模型所采用(该模型的发布日期尚未正式公布)。

Q&A

Q1:什么是流形约束超连接技术?

A:流形约束超连接(mHC)是DeepSeek开发的一种新的AI模型训练方法。它基于超连接框架,通过约束模型内的超连接性来解决信号传输中的衰减问题,在保持信息复杂性的同时降低内存成本,让小公司也能训练复杂的大语言模型。

Q2:DeepSeek的R1模型为什么会引起轰动?

A:DeepSeek的R1模型能够匹敌OpenAI的o1模型性能,但训练成本据报道仅为后者的一小部分。这令美国科技开发者震惊,因为它证明了训练尖端AI模型并不一定需要巨额资本和计算资源,打破了此前的行业认知。

Q3:mHC技术对AI行业有什么意义?

A:mHC技术可能改变AI行业的发展方向。它为资金有限的小开发者提供了构建前沿模型的可能,挑战了"只有大公司才能负担得起前沿AI开发"的观点。如果被DeepSeek的R2模型采用并证明有效,这种方法可能被业界广泛采用。

来源:ZDNET

0赞

好文章,需要你的鼓励

2026

01/04

08:10

分享

点赞

邮件订阅