就在新年伊始,AI界迎来了一个可能改变游戏规则的全新模型训练方法。
中国AI公司DeepSeek的研究团队在周三发布了一篇论文,介绍了他们称为"流形约束超连接"(Manifold-Constrained Hyper-Connections,简称mHC)的方法,这可能为工程师提供了一条构建和扩展大语言模型的新路径,而无需通常所需的巨额计算成本。
一年前,DeepSeek凭借其发布的R1模型一跃成为文化焦点,该模型能够匹敌OpenAI的o1模型,据报道训练成本仅为后者的一小部分。这一发布令美国的科技开发者感到震惊,因为它表明训练尖端AI模型并不一定需要巨额资本和计算资源。
新的mHC论文可能成为DeepSeek即将推出的R2模型的技术框架。R2模型原计划在去年年中发布,但由于中国获得先进AI芯片的途径受限,以及该公司首席执行官梁文锋对模型性能的担忧,发布被推迟。
这篇发表在预印本服务器网站arXiv上的论文,试图弥合阻碍AI模型可扩展性的一个复杂而重要的技术缺口。arXiv是一个流行的在线资源平台,研究人员可以在此分享尚未经过同行评议的研究结果。
大语言模型基于神经网络构建,而神经网络的设计目标是在多个层级间保持信号传输。问题在于,随着层级的增加,信号变得更容易衰减或降级,变成噪声的风险也更大。这有点像传话游戏:参与的人越多,原始信息被混淆和改变的可能性就越高。
因此,核心挑战是构建能够在尽可能多的层级中保持信号的模型——或者如DeepSeek研究人员在新论文中所描述的"更好地优化可塑性和稳定性之间的权衡"。
这篇新论文的作者包括DeepSeek首席执行官梁文锋,他们在超连接(HCs)框架的基础上进行构建。超连接是2024年由字节跳动研究人员提出的框架,它增加了神经网络层级间信息共享的通道数量。然而,HCs存在原始信号在传输过程中丢失的风险(再次想象传话游戏中不断增加的参与者),同时还带来高内存成本,使其难以大规模实施。
mHC架构旨在通过约束模型内的超连接性来解决这个问题,从而在保持HCs所带来的信息复杂性的同时,规避内存问题。这反过来可以允许以一种对较小、资金紧张的开发者来说既实用又可扩展的方式训练高度复杂的模型。
正如2025年1月R1模型的发布一样,mHC框架的首次亮相可能暗示着AI发展的新方向。
迄今为止,在AI竞赛中,普遍的观点是只有最大、最有资金实力的公司才能负担得起构建前沿模型的成本。但DeepSeek不断证明变通方法是可能的,仅通过巧妙的工程设计就能实现突破。
该公司发布其mHC方法的新研究这一事实意味着,这种方法可能被较小的开发者广泛采用,特别是如果它最终被备受期待的R2模型所采用(该模型的发布日期尚未正式公布)。
Q&A
Q1:什么是流形约束超连接技术?
A:流形约束超连接(mHC)是DeepSeek开发的一种新的AI模型训练方法。它基于超连接框架,通过约束模型内的超连接性来解决信号传输中的衰减问题,在保持信息复杂性的同时降低内存成本,让小公司也能训练复杂的大语言模型。
Q2:DeepSeek的R1模型为什么会引起轰动?
A:DeepSeek的R1模型能够匹敌OpenAI的o1模型性能,但训练成本据报道仅为后者的一小部分。这令美国科技开发者震惊,因为它证明了训练尖端AI模型并不一定需要巨额资本和计算资源,打破了此前的行业认知。
Q3:mHC技术对AI行业有什么意义?
A:mHC技术可能改变AI行业的发展方向。它为资金有限的小开发者提供了构建前沿模型的可能,挑战了"只有大公司才能负担得起前沿AI开发"的观点。如果被DeepSeek的R2模型采用并证明有效,这种方法可能被业界广泛采用。
好文章,需要你的鼓励
企业AI搜索公司Glean宣布年度经常性收入(ARR)达3亿美元,较15个月前的1亿美元增长三倍。尽管谷歌、微软、OpenAI等科技巨头纷纷入局企业AI搜索市场,Glean凭借"上下文图谱"技术深度理解企业业务需求,并帮助客户显著降低AI计算成本。该公司提供按用量计费和混合定价两种模式,客户涵盖Databricks、Reddit、Pinterest及三星等企业。Glean上轮融资后估值达72亿美元。
香港中文大学与MiniMax提出ClaimDiff-RL框架,将图像描述的AI训练从整体打分升级为逐条核查,有效解决了传统方式导致AI"少说保平安"的问题,同时在多项基准测试上超越Gemini-3-Pro-Preview。
杰夫·贝索斯旗下的蓝色起源公司在佛罗里达卡纳维拉尔角进行静态点火测试时,新格伦重型火箭发生爆炸。这是美国历史上最大规模的火箭爆炸之一,也是蓝色起源公司遭遇的最严重失败。所有人员安全,但该事故可能导致新格伦火箭项目长期暂停。此前该火箭已成功完成三次发射,并实现了助推器回收和重复使用。
ParaVT是一个由南洋理工等多校联合提出的并行视频工具调用框架,通过让AI同时分析多段视频并引入PARA-GRPO算法解决训练中的格式崩溃与工具跳过问题,在六项长视频理解测试中平均提升约7.9%。