包括 OpenAI、Microsoft 和 Meta 在内的主要人工智能公司正在采用一种称为"蒸馏"的技术,以在全球竞争中创建更经济实惠的 AI 模型,使消费者和企业能够更容易采用。
在中国的 DeepSeek 利用这项技术,基于竞争对手 Meta 和阿里巴巴发布的开源系统构建出强大且高效的 AI 模型后,这种技术引起了广泛关注。这一突破动摇了硅谷在 AI 领域的领导地位,导致华尔街投资者抹去了美国科技巨头数十亿美元的市值。
通过蒸馏技术,公司使用一个被称为"教师"模型的大语言模型来预测句子中的下一个可能出现的词。教师模型生成数据,然后用这些数据训练一个较小的"学生"模型,帮助快速将大模型的知识和预测能力转移到小模型中。
虽然蒸馏技术多年来已被广泛使用,但最近的进展使行业专家相信,这一技术将越来越多地帮助初创公司寻找经济有效的方式来构建基于该技术的应用。
OpenAI 平台产品负责人 Olivier Godement 表示:"蒸馏技术非常神奇。它本质上是将一个非常大的智能前沿模型用来教导一个更小的模型...使其在特定任务上非常有能力,而且运行成本极低,速度极快。"
像 OpenAI 的 GPT-4、Google 的 Gemini 和 Meta 的 Llama 这样的大语言模型需要大量的数据和计算能力来开发和维护。虽然这些公司没有透露训练大模型的具体成本,但可能高达数亿美元。
得益于蒸馏技术,开发者和企业可以以更低的价格获取这些模型的能力,使应用程序开发人员能够在笔记本电脑和智能手机等设备上快速运行 AI 模型。
开发者可以使用 OpenAI 的平台进行蒸馏,从支撑 ChatGPT 等产品的大语言模型中学习。OpenAI 的最大支持者 Microsoft 在投资近 140 亿美元后,作为商业合作的一部分,使用 GPT-4 来蒸馏其小型语言模型家族 Phi。
然而,这家总部位于旧金山的初创公司表示,他们认为 DeepSeek 蒸馏了 OpenAI 的模型来训练其竞争对手,这种做法违反了其服务条款。DeepSeek 尚未对这些说法发表评论。
专家们指出,虽然蒸馏可以用来创建高性能模型,但这些模型的能力更为有限。
Microsoft Research 的 Ahmed Awadallah 说:"蒸馏技术需要权衡取舍;如果你让模型变小,就不可避免地会降低其能力。"他表示,蒸馏模型可以设计得非常擅长总结邮件,"但在其他方面就不会表现得很好。"
IBM Research 的 AI 模型副总裁 David Cox 表示,大多数企业并不需要一个庞大的模型来运行他们的产品,蒸馏模型对于客户服务聊天机器人或在手机等较小设备上运行来说已经足够强大。
他补充说:"只要能够 (降低成本) 并且能达到你想要的性能,就几乎没有理由不这样做。"
这对许多领先 AI 公司的商业模式构成了挑战。即使开发者使用来自 OpenAI 等公司的蒸馏模型,它们的运行成本更低,创建成本更少,因此产生的收入也更少。像 OpenAI 这样的模型制造商通常对使用蒸馏模型收取更低的费用,因为它们需要的计算负载更小。
然而,OpenAI 的 Godement 认为,对于"高智能和高风险任务",仍然需要大语言模型,因为"企业愿意为高水平的准确性和可靠性支付更多费用。"他补充说,大模型也将被用来发现新的能力,这些能力随后可以被蒸馏到更小的模型中。
尽管如此,该公司仍致力于防止其大模型被蒸馏用于训练竞争对手。OpenAI 有团队监控使用情况,可以删除被怀疑生成大量数据用于导出和训练竞争对手的用户的访问权限,就像它显然对待与 DeepSeek 有关的账户那样。但这些行动大多是事后采取的。
构建企业信息检索工具的初创公司 Contextual AI 的首席执行官 Douwe Kiela 表示:"OpenAI 一直在试图防止蒸馏,但完全避免它是非常困难的。"
蒸馏技术也是开放模型倡导者的胜利,他们主张将技术免费提供给开发者使用。DeepSeek 最近的模型也向开发者开放。
Meta 的首席 AI 科学家 Yann LeCun 表示:"我们会立即使用 (蒸馏技术) 并将其应用到我们的产品中。这就是开源的全部理念。只要这些过程是开放的,你就可以从每个人和所有人的进步中受益。"
蒸馏技术也意味着模型制造商可能花费数十亿美元来推进 AI 系统的能力,但仍然面临着竞争对手经常快速追赶的情况,就像 DeepSeek 最近的发布所表明的那样。当大语言模型的能力可以在几个月内被复制时,这就引发了关于构建大语言模型的先发优势的质疑。
IBM 的 Cox 说:"在一个变化如此之快的世界里...你可能会花很多钱用艰难的方式做事,然后业界其他人就紧随其后。所以这是一个有趣且棘手的商业环境。"
好文章,需要你的鼓励
Gartner预测,到2030年所有IT工作都将涉及AI技术的使用,这与目前81%的IT工作不使用AI形成鲜明对比。届时25%的IT工作将完全由机器人执行,75%由人类在AI辅助下完成。尽管AI将取代部分入门级IT职位,但Gartner认为不会出现大规模失业潮,目前仅1%的失业由AI造成。研究显示65%的公司在AI投资上亏损,而世界经济论坛预计AI到2030年创造的就业机会将比消除的多7800万个。
Meta与特拉维夫大学联合研发的VideoJAM技术,通过让AI同时学习外观和运动信息,显著解决了当前视频生成模型中动作不连贯、违反物理定律的核心问题。该技术仅需添加两个线性层就能大幅提升运动质量,在多项测试中超越包括Sora在内的商业模型,为AI视频生成的实用化应用奠定了重要基础。
人工智能正从软件故事转向AI工厂基础,芯片、数据管道和网络协同工作形成数字化生产系统。这种新兴模式重新定义了性能衡量标准和跨行业价值创造方式。AI工厂将定制半导体、低延迟结构和大规模数据仪器整合为实时反馈循环,产生竞争优势。博通、英伟达和IBM正在引领这一转变,通过长期定制芯片合同和企业遥测技术,将传统体验转化为活跃的数字生态系统。
上海AI实验室发布OmniAlign-V研究,首次系统性解决多模态大语言模型人性化对话问题。该研究创建了包含20万高质量样本的训练数据集和MM-AlignBench评测基准,通过创新的数据生成和质量管控方法,让AI在保持技术能力的同时显著提升人性化交互水平,为AI价值观对齐提供了可行技术路径。