包括 OpenAI、Microsoft 和 Meta 在内的主要人工智能公司正在采用一种称为"蒸馏"的技术,以在全球竞争中创建更经济实惠的 AI 模型,使消费者和企业能够更容易采用。
在中国的 DeepSeek 利用这项技术,基于竞争对手 Meta 和阿里巴巴发布的开源系统构建出强大且高效的 AI 模型后,这种技术引起了广泛关注。这一突破动摇了硅谷在 AI 领域的领导地位,导致华尔街投资者抹去了美国科技巨头数十亿美元的市值。
通过蒸馏技术,公司使用一个被称为"教师"模型的大语言模型来预测句子中的下一个可能出现的词。教师模型生成数据,然后用这些数据训练一个较小的"学生"模型,帮助快速将大模型的知识和预测能力转移到小模型中。
虽然蒸馏技术多年来已被广泛使用,但最近的进展使行业专家相信,这一技术将越来越多地帮助初创公司寻找经济有效的方式来构建基于该技术的应用。
OpenAI 平台产品负责人 Olivier Godement 表示:"蒸馏技术非常神奇。它本质上是将一个非常大的智能前沿模型用来教导一个更小的模型...使其在特定任务上非常有能力,而且运行成本极低,速度极快。"
像 OpenAI 的 GPT-4、Google 的 Gemini 和 Meta 的 Llama 这样的大语言模型需要大量的数据和计算能力来开发和维护。虽然这些公司没有透露训练大模型的具体成本,但可能高达数亿美元。
得益于蒸馏技术,开发者和企业可以以更低的价格获取这些模型的能力,使应用程序开发人员能够在笔记本电脑和智能手机等设备上快速运行 AI 模型。
开发者可以使用 OpenAI 的平台进行蒸馏,从支撑 ChatGPT 等产品的大语言模型中学习。OpenAI 的最大支持者 Microsoft 在投资近 140 亿美元后,作为商业合作的一部分,使用 GPT-4 来蒸馏其小型语言模型家族 Phi。
然而,这家总部位于旧金山的初创公司表示,他们认为 DeepSeek 蒸馏了 OpenAI 的模型来训练其竞争对手,这种做法违反了其服务条款。DeepSeek 尚未对这些说法发表评论。
专家们指出,虽然蒸馏可以用来创建高性能模型,但这些模型的能力更为有限。
Microsoft Research 的 Ahmed Awadallah 说:"蒸馏技术需要权衡取舍;如果你让模型变小,就不可避免地会降低其能力。"他表示,蒸馏模型可以设计得非常擅长总结邮件,"但在其他方面就不会表现得很好。"
IBM Research 的 AI 模型副总裁 David Cox 表示,大多数企业并不需要一个庞大的模型来运行他们的产品,蒸馏模型对于客户服务聊天机器人或在手机等较小设备上运行来说已经足够强大。
他补充说:"只要能够 (降低成本) 并且能达到你想要的性能,就几乎没有理由不这样做。"
这对许多领先 AI 公司的商业模式构成了挑战。即使开发者使用来自 OpenAI 等公司的蒸馏模型,它们的运行成本更低,创建成本更少,因此产生的收入也更少。像 OpenAI 这样的模型制造商通常对使用蒸馏模型收取更低的费用,因为它们需要的计算负载更小。
然而,OpenAI 的 Godement 认为,对于"高智能和高风险任务",仍然需要大语言模型,因为"企业愿意为高水平的准确性和可靠性支付更多费用。"他补充说,大模型也将被用来发现新的能力,这些能力随后可以被蒸馏到更小的模型中。
尽管如此,该公司仍致力于防止其大模型被蒸馏用于训练竞争对手。OpenAI 有团队监控使用情况,可以删除被怀疑生成大量数据用于导出和训练竞争对手的用户的访问权限,就像它显然对待与 DeepSeek 有关的账户那样。但这些行动大多是事后采取的。
构建企业信息检索工具的初创公司 Contextual AI 的首席执行官 Douwe Kiela 表示:"OpenAI 一直在试图防止蒸馏,但完全避免它是非常困难的。"
蒸馏技术也是开放模型倡导者的胜利,他们主张将技术免费提供给开发者使用。DeepSeek 最近的模型也向开发者开放。
Meta 的首席 AI 科学家 Yann LeCun 表示:"我们会立即使用 (蒸馏技术) 并将其应用到我们的产品中。这就是开源的全部理念。只要这些过程是开放的,你就可以从每个人和所有人的进步中受益。"
蒸馏技术也意味着模型制造商可能花费数十亿美元来推进 AI 系统的能力,但仍然面临着竞争对手经常快速追赶的情况,就像 DeepSeek 最近的发布所表明的那样。当大语言模型的能力可以在几个月内被复制时,这就引发了关于构建大语言模型的先发优势的质疑。
IBM 的 Cox 说:"在一个变化如此之快的世界里...你可能会花很多钱用艰难的方式做事,然后业界其他人就紧随其后。所以这是一个有趣且棘手的商业环境。"
好文章,需要你的鼓励
Roig Arena 将于 2025 年 9 月在瓦伦西亚开业,借助 Extreme Networks 的 6GHz Wi-Fi 与数据分析技术,实现无缝运营与个性化观众体验,打造全天候活动中心。
这项研究首次系统研究了大语言模型在表达不确定性时的"忠实度"问题,发现它们往往在不确定时仍使用肯定语言,导致用户过度信任。研究团队提出了MetaFaith方法,通过激发模型的"元认知"能力,使其能更诚实地表达不确定性。在14种模型和10个数据集的测试中,MetaFaith将忠实度提升了高达61%,且83%的情况下被人类评为更可靠。这一突破对构建更值得信任的AI系统具有重要意义。
OpenMamba 是一款意大利独立滚动更新的 Linux 发行版,基于 Fedora 工具构建,提供 KDE Plasma 与 LXQt 桌面。它采用最新组件和标准打包工具,运行稳定且易用,适合规避主流系统限制的用户。
这项研究提出了强化蒸馏(REDI)框架,创新性地利用大型语言模型生成的正确和错误推理过程进行训练。传统方法仅使用正确样本,浪费了包含宝贵信息的错误样本。REDI采用两阶段方法:先用正确样本建立基础,再通过非对称加权的目标函数利用错误样本进一步优化。实验表明,仅用131k个公开数据样本训练的Qwen-REDI-1.5B模型在MATH-500等基准上达到83.1%准确率,与使用800k专有数据训练的同类模型相当或更优,为小型模型离线学习复杂推理能力提供了高效途径。