一支来自 Zoom Communications 的研究团队开发出了一项突破性技术,这项技术可能会大幅降低人工智能系统在处理复杂推理问题时所需的成本和计算资源,有望从根本上改变企业大规模部署 AI 的方式。
这种名为 Chain of Draft (CoD) 的方法使大语言模型能够用最少的文字来解决问题——仅使用当前方法所需文本量的 7.6%,同时保持或甚至提高准确性。这项研究成果已于上周发表在研究资料库 arXiv 上。
"通过减少冗长表述并专注于关键见解,CoD 在各种推理任务中仅使用 7.6% 的 token 就能达到或超越 CoT 的准确性,显著降低了成本和延迟,"由 Zoom 研究员 Silei Xu 领导的作者团队写道。
Chain of Draft (红色) 在四个推理任务中使用显著更少的 token 的同时,保持或超越了 Chain of Thought (黄色) 的准确性,展示了简洁的 AI 推理如何在不牺牲性能的情况下降低成本。(来源:arxiv.org)
如何通过"少即是多"在不牺牲准确性的情况下改变 AI 推理
Chain of Draft 的灵感来自人类解决复杂问题的方式。在解决数学问题或逻辑难题时,人们通常只会以简略的形式记下关键信息,而不是详细阐述每个细节。
研究人员在论文中解释道:"在解决复杂任务时——无论是解决数学问题、写作还是编程——我们往往只记录能帮助我们取得进展的关键信息。通过模仿这种行为,大语言模型可以专注于推进解决方案,而不会产生冗长推理的开销。"
研究团队在多个基准测试中验证了他们的方法,包括算术推理 (GSM8k)、常识推理 (日期理解和体育理解) 以及符号推理 (硬币翻转任务)。
在一个涉及 Claude 3.5 Sonnet 处理体育相关问题的显著案例中,Chain of Draft 方法将平均输出从 189.4 个 token 减少到仅 14.3 个 token——减少了 92.4%——同时准确率从 93.2% 提高到 97.3%。
降低企业 AI 成本:简洁机器推理的商业价值
AI 研究员 Ajith Vallath Prabhakar 在分析该论文时指出:"对于每月处理 100 万次推理查询的企业而言,CoD 可以将成本从 3,800 美元 (CoT) 降低到 760 美元,每月节省超过 3,000 美元。"
这项研究在企业 AI 部署的关键时期应运而生。随着企业increasingly将复杂的 AI 系统整合到运营中,计算成本和响应时间已成为广泛应用的重要障碍。
2022 年推出的 Chain-of-Thought (CoT) 等当前最先进的推理技术,通过将问题分解为逐步推理,大大提高了 AI 解决复杂问题的能力。但这种方法会生成冗长的解释,消耗大量计算资源并增加响应延迟。
Prabhakar 表示:"CoT 提示的冗长特性导致了大量的计算开销、增加的延迟和更高的运营支出。"
实施 AI 效率:无需重新训练即可立即产生业务影响
对企业而言,Chain of Draft 的特别之处在于其实施的简单性。与许多需要昂贵的模型重训练或架构更改的 AI 进展不同,CoD 可以通过简单的提示修改立即在现有模型上部署。
Prabhakar 解释说:"已经使用 CoT 的组织可以通过简单的提示修改切换到 CoD。"
这项技术对于对延迟敏感的应用尤其有价值,如实时客户支持、移动 AI、教育工具和金融服务,在这些领域即使很小的延迟也会显著影响用户体验。
行业专家认为,其影响不仅限于成本节省。通过使高级 AI 推理变得更容易获得和负担得起,Chain of Draft 可能会让较小的组织和资源受限的环境也能使用复杂的 AI 功能。
随着 AI 系统的不断发展,像 Chain of Draft 这样的技术凸显了效率与原始能力并重的趋势。对于在快速变化的 AI 领域中航行的企业来说,这些优化可能与底层模型本身的改进一样有价值。
"随着 AI 模型继续发展,优化推理效率将与提高其原始能力一样重要,"Prabhakar 总结道。
该研究的代码和数据已在 GitHub 上公开,允许组织在自己的 AI 系统中实施和测试这种方法。
好文章,需要你的鼓励
大众汽车旗下ID. Polo与Cupra Raval已在西班牙马托雷尔工厂正式下线投产。两款车型起售价分别为24,995欧元和26,000欧元,均基于MEB+平台打造,搭载37kWh或52kWh电池组,续航里程最高可达454公里。这是大众"电动城市车家族"系列的首批产品,预计今年夏末秋初开始交付。大众集团通过跨品牌资源整合,实现约6亿欧元的成本节约,后续还将推出ID. Cross等新成员。
STATE16研究院这篇综述发现,物理AI系统存在"静默失效"风险——AI以高度自信执行基于错误世界信息的动作,却不触发任何报警,并提出在AI输出与物理执行之间建立独立授权层的框架。
三星宣布将于6月8日起为Samsung Health应用推出重磅功能更新,赶在Galaxy Watch 9传闻发布之前落地。新版本将引入多项AI驱动的生物特征分析功能,包括:综合心率、血氧、皮肤温度等数据的每日活力评分(Vitals)、结合体成分数据评估长期心脏健康的心脏健康评分、优化训练强度的每日有氧负荷追踪,以及横向对比用户群体的健身指数。此外,应用界面将重新划分为睡眠、营养、活动、正念和体征五大板块,并新增抗氧化指数、年龄指数和听力保护等个性化功能。
UIUC与微软联合研发的OpenWebRL框架让4B小模型仅凭400条初始数据,通过在真实网站上边做边学的强化学习方式,在网页智能体基准上超越了用27万条数据训练的竞争对手。