就在新年伊始,AI界迎来了一个可能改变游戏规则的全新模型训练方法。
中国AI公司DeepSeek的研究团队在周三发布了一篇论文,介绍了他们称为"流形约束超连接"(Manifold-Constrained Hyper-Connections,简称mHC)的方法,这可能为工程师提供了一条构建和扩展大语言模型的新路径,而无需通常所需的巨额计算成本。
一年前,DeepSeek凭借其发布的R1模型一跃成为文化焦点,该模型能够匹敌OpenAI的o1模型,据报道训练成本仅为后者的一小部分。这一发布令美国的科技开发者感到震惊,因为它表明训练尖端AI模型并不一定需要巨额资本和计算资源。
新的mHC论文可能成为DeepSeek即将推出的R2模型的技术框架。R2模型原计划在去年年中发布,但由于中国获得先进AI芯片的途径受限,以及该公司首席执行官梁文锋对模型性能的担忧,发布被推迟。
这篇发表在预印本服务器网站arXiv上的论文,试图弥合阻碍AI模型可扩展性的一个复杂而重要的技术缺口。arXiv是一个流行的在线资源平台,研究人员可以在此分享尚未经过同行评议的研究结果。
大语言模型基于神经网络构建,而神经网络的设计目标是在多个层级间保持信号传输。问题在于,随着层级的增加,信号变得更容易衰减或降级,变成噪声的风险也更大。这有点像传话游戏:参与的人越多,原始信息被混淆和改变的可能性就越高。
因此,核心挑战是构建能够在尽可能多的层级中保持信号的模型——或者如DeepSeek研究人员在新论文中所描述的"更好地优化可塑性和稳定性之间的权衡"。
这篇新论文的作者包括DeepSeek首席执行官梁文锋,他们在超连接(HCs)框架的基础上进行构建。超连接是2024年由字节跳动研究人员提出的框架,它增加了神经网络层级间信息共享的通道数量。然而,HCs存在原始信号在传输过程中丢失的风险(再次想象传话游戏中不断增加的参与者),同时还带来高内存成本,使其难以大规模实施。
mHC架构旨在通过约束模型内的超连接性来解决这个问题,从而在保持HCs所带来的信息复杂性的同时,规避内存问题。这反过来可以允许以一种对较小、资金紧张的开发者来说既实用又可扩展的方式训练高度复杂的模型。
正如2025年1月R1模型的发布一样,mHC框架的首次亮相可能暗示着AI发展的新方向。
迄今为止,在AI竞赛中,普遍的观点是只有最大、最有资金实力的公司才能负担得起构建前沿模型的成本。但DeepSeek不断证明变通方法是可能的,仅通过巧妙的工程设计就能实现突破。
该公司发布其mHC方法的新研究这一事实意味着,这种方法可能被较小的开发者广泛采用,特别是如果它最终被备受期待的R2模型所采用(该模型的发布日期尚未正式公布)。
Q&A
Q1:什么是流形约束超连接技术?
A:流形约束超连接(mHC)是DeepSeek开发的一种新的AI模型训练方法。它基于超连接框架,通过约束模型内的超连接性来解决信号传输中的衰减问题,在保持信息复杂性的同时降低内存成本,让小公司也能训练复杂的大语言模型。
Q2:DeepSeek的R1模型为什么会引起轰动?
A:DeepSeek的R1模型能够匹敌OpenAI的o1模型性能,但训练成本据报道仅为后者的一小部分。这令美国科技开发者震惊,因为它证明了训练尖端AI模型并不一定需要巨额资本和计算资源,打破了此前的行业认知。
Q3:mHC技术对AI行业有什么意义?
A:mHC技术可能改变AI行业的发展方向。它为资金有限的小开发者提供了构建前沿模型的可能,挑战了"只有大公司才能负担得起前沿AI开发"的观点。如果被DeepSeek的R2模型采用并证明有效,这种方法可能被业界广泛采用。
好文章,需要你的鼓励
VSCO今日更新VSCO Capture应用,新增视频拍摄功能。用户现可在拍摄照片和视频时应用并调整VSCO的50多种滤镜预设,包括经典胶片到现代创作风格。新版本还推出胶片颗粒滤镜,可动态控制纹理强度、大小和色彩。用户能将颗粒滤镜叠加到Film X滤镜上,结合柯达、富士和爱克发胶片风格,保存个性化胶片配方。
瑞士ETH苏黎世联邦理工学院等机构联合开发的WUSH技术,首次从数学理论层面推导出AI大模型量化压缩的最优解。该技术能根据数据特征自适应调整压缩策略,相比传统方法减少60-70%的压缩损失,实现接近零损失的模型压缩,为大模型在普通设备上的高效部署开辟了新路径。
Instagram负责人Adam Mosseri表示,AI生成内容已经占据社交媒体主导地位,预计将超越非AI内容。他认为识别AI内容的技术效果不佳,建议转而为真实媒体建立指纹识别系统,由相机制造商在拍摄时进行加密签名。Mosseri还指出,创作者应优先发布"不完美"的原始图像来证明真实性,因为精美方形图片的时代已经结束。
弗吉尼亚大学团队创建了Refer360数据集,这是首个大规模记录真实环境中人机多模态交互的数据库,涵盖室内外场景,包含1400万交互样本。同时开发的MuRes智能模块能让机器人像人类一样理解语言、手势和眼神的组合信息,显著提升了现有AI模型的理解准确度,为未来智能机器人的广泛应用奠定了重要基础。