AI 公司效仿 DeepSeek，通过"蒸馏"技术打造低成本模型

领先的 AI 公司正在采用"蒸馏"技术，以创造更便宜、更易采用的 AI 模型。这种技术在 DeepSeek 成功应用后引起广泛关注，引发了硅谷 AI 领导地位的动摇。蒸馏技术通过将大型语言模型的知识转移到小型模型中，实现了高效且经济的 AI 应用。这一突破为初创公司和开发者提供了更多机会，同时也对现有 AI 公司的商业模式构成了挑战。

包括 OpenAI、Microsoft 和 Meta 在内的主要人工智能公司正在采用一种称为"蒸馏"的技术，以在全球竞争中创建更经济实惠的 AI 模型，使消费者和企业能够更容易采用。

在中国的 DeepSeek 利用这项技术，基于竞争对手 Meta 和阿里巴巴发布的开源系统构建出强大且高效的 AI 模型后，这种技术引起了广泛关注。这一突破动摇了硅谷在 AI 领域的领导地位，导致华尔街投资者抹去了美国科技巨头数十亿美元的市值。

通过蒸馏技术，公司使用一个被称为"教师"模型的大语言模型来预测句子中的下一个可能出现的词。教师模型生成数据，然后用这些数据训练一个较小的"学生"模型，帮助快速将大模型的知识和预测能力转移到小模型中。

虽然蒸馏技术多年来已被广泛使用，但最近的进展使行业专家相信，这一技术将越来越多地帮助初创公司寻找经济有效的方式来构建基于该技术的应用。

OpenAI 平台产品负责人 Olivier Godement 表示："蒸馏技术非常神奇。它本质上是将一个非常大的智能前沿模型用来教导一个更小的模型...使其在特定任务上非常有能力，而且运行成本极低，速度极快。"

像 OpenAI 的 GPT-4、Google 的 Gemini 和 Meta 的 Llama 这样的大语言模型需要大量的数据和计算能力来开发和维护。虽然这些公司没有透露训练大模型的具体成本，但可能高达数亿美元。

得益于蒸馏技术，开发者和企业可以以更低的价格获取这些模型的能力，使应用程序开发人员能够在笔记本电脑和智能手机等设备上快速运行 AI 模型。

开发者可以使用 OpenAI 的平台进行蒸馏，从支撑 ChatGPT 等产品的大语言模型中学习。OpenAI 的最大支持者 Microsoft 在投资近 140 亿美元后，作为商业合作的一部分，使用 GPT-4 来蒸馏其小型语言模型家族 Phi。

然而，这家总部位于旧金山的初创公司表示，他们认为 DeepSeek 蒸馏了 OpenAI 的模型来训练其竞争对手，这种做法违反了其服务条款。DeepSeek 尚未对这些说法发表评论。

专家们指出，虽然蒸馏可以用来创建高性能模型，但这些模型的能力更为有限。

Microsoft Research 的 Ahmed Awadallah 说："蒸馏技术需要权衡取舍；如果你让模型变小，就不可避免地会降低其能力。"他表示，蒸馏模型可以设计得非常擅长总结邮件，"但在其他方面就不会表现得很好。"

IBM Research 的 AI 模型副总裁 David Cox 表示，大多数企业并不需要一个庞大的模型来运行他们的产品，蒸馏模型对于客户服务聊天机器人或在手机等较小设备上运行来说已经足够强大。

他补充说："只要能够 (降低成本) 并且能达到你想要的性能，就几乎没有理由不这样做。"

这对许多领先 AI 公司的商业模式构成了挑战。即使开发者使用来自 OpenAI 等公司的蒸馏模型，它们的运行成本更低，创建成本更少，因此产生的收入也更少。像 OpenAI 这样的模型制造商通常对使用蒸馏模型收取更低的费用，因为它们需要的计算负载更小。

然而，OpenAI 的 Godement 认为，对于"高智能和高风险任务"，仍然需要大语言模型，因为"企业愿意为高水平的准确性和可靠性支付更多费用。"他补充说，大模型也将被用来发现新的能力，这些能力随后可以被蒸馏到更小的模型中。

尽管如此，该公司仍致力于防止其大模型被蒸馏用于训练竞争对手。OpenAI 有团队监控使用情况，可以删除被怀疑生成大量数据用于导出和训练竞争对手的用户的访问权限，就像它显然对待与 DeepSeek 有关的账户那样。但这些行动大多是事后采取的。

构建企业信息检索工具的初创公司 Contextual AI 的首席执行官 Douwe Kiela 表示："OpenAI 一直在试图防止蒸馏，但完全避免它是非常困难的。"

蒸馏技术也是开放模型倡导者的胜利，他们主张将技术免费提供给开发者使用。DeepSeek 最近的模型也向开发者开放。

Meta 的首席 AI 科学家 Yann LeCun 表示："我们会立即使用 (蒸馏技术) 并将其应用到我们的产品中。这就是开源的全部理念。只要这些过程是开放的，你就可以从每个人和所有人的进步中受益。"

蒸馏技术也意味着模型制造商可能花费数十亿美元来推进 AI 系统的能力，但仍然面临着竞争对手经常快速追赶的情况，就像 DeepSeek 最近的发布所表明的那样。当大语言模型的能力可以在几个月内被复制时，这就引发了关于构建大语言模型的先发优势的质疑。

IBM 的 Cox 说："在一个变化如此之快的世界里...你可能会花很多钱用艰难的方式做事，然后业界其他人就紧随其后。所以这是一个有趣且棘手的商业环境。"

来源：Arstechnica

0赞

好文章，需要你的鼓励

AI 公司效仿 DeepSeek，通过"蒸馏"技术打造低成本模型

来源：Arstechnica

2025

03/04

17:47

分享

点赞

据说算力高达1000 TOPS，华硕Ascent GX10深度评测——模型推理

上交联手阿里团队打造"AI记忆管家"ReMe，像人类一样从经验中学习

意大利航空携手ESA部署卫星通信技术提升飞行效率

苹果TV急需PoE支持以释放企业应用潜力

Google Translate为所有耳机带来实时语音翻译功能

生成式AI在心理健康咨询中的时间规律与人类使用习惯分析

回顾我们的2025年AI预测：准确性如何？

ServiceNow斥资10亿美元收购Veza 加速智能体权限管理

除英伟达和台积电外，其他AI公司都需要靠量补利

2025年数据中心芯片领域最热门发展趋势

自动化技术领导者揭示企业对AI认知的关键误区

五分之三企业对Wi-Fi投资信心增强

AI 时代的数据中心：未来十年规划展望

AI 编程助手拒绝写代码，建议用户自学编程

超越 ChatGPT：通往通用人工智能的 5 大挑战

Oracle 在 AI 主流化方面具有重大优势

Snap 推出基于自研生成模型的 AI 视频滤镜

Google 的 Gemma 3：一款支持 128K 上下文窗口的开源单 GPU AI 模型

精灵宝可梦 GO 迎来新东家，而 Niantic 正借助 AI 和 AR 重塑地图业务

Google 的 Gemini 2.0 Flash 原生多模态 AI 图像生成功能给人留下深刻印象

Google 推出两款全新 AI 机器人控制模型

Nvidia 赢得了 AI 训练竞赛，但推理市场仍未尘埃落定

如果您非常迫切的想了解IT领域最新产品与技术信息，那么订阅至顶网技术邮件将是您的最佳途径之一

2025 re:Invent ：亚马逊云科技把Agentic AI生态梳理明白了

电子竞技瞬息万变，Team Liquid的“数据+AI”制胜秘籍

中国移动呼和浩特数据中心：只有高效存力先行，AI才能跑出全力

从“支撑工具”到“智能中枢”，AI原生ERP进化

关注官方公众号

关注官方微博

关注官方喜马拉雅

友情链接

业界热点: