超越自动补全:推理模型为生成式 AI 设定了更高标准

本文介绍推理模型如何通过链式推理和多路径探索外部信息,展示其在复杂问题求解中(如数学、规划和动态决策方面)的卓越优势,从而推动生成式 AI 技术向更高水平发展。

如果 你 访问 ChatGPT.com,从下拉菜单中选择 o4-mini 模型,然后输入提示,你会看到一条你可能从未见过的消息。

“Thinking”,聊天机器人在经过几秒后回应。它随后给出你刚才提问的问题概要以及用于构思答案的过程描述。屏幕上可能会显示一个来源列表,以及模型为搜索答案所生成的搜索标准。再过几秒,答案与生成该答案所耗费的时间说明一并出现在你的屏幕上。

这听起来似乎为一个简单问题提供了许多不必要的细节,但这正是推理模型的魅力所在 —— 一种正在 AI 领域激起涟漪的全新生成式 AI 形式。o4-mini 以及其他推理模型会探索多条思路以得出结论。记录其采用的方法正是使推理模型在解决复杂问题时更为高效、有用的重要原因。

Gartner 的 Carlsson: 当你谈论机器超越人类时,你往往在谈论强化学习。 Photo: SiliconANGLE

OpenAI 的第一款推理模型,命名为 o1,于 12 月首次亮相。随后又快速推出 o3 和 o4-mini 模型,其中最新的 o4-mini 于 4 月 16 日发布(中间没有 o2 版本)。其他推理模型还包括 DeepSeek 的 R1、Anthropic pbc 的 Claude 3.7、Google LLC 的 Gemini 2.0 Flash Thinking、Alibaba Group Holding Ltd. 的 Thinking QwQ 以及 Mistral AI SAS 的 Colestral。

上个月,Microsoft Corp. 在其 Copilot Studio 中加入了推理代理,称它们能够“解决工作中的复杂、多步研究 —— 从而提供比以往更高质量、更准确的见解”。

虽然在功能上它们与 ChatGPT 大语言模型类似,但推理模型的行为截然不同。大语言模型采用所谓的 “next-token prediction” 方法,在海量文本语料上学习语言的统计模式,以生成统计上最有可能构成回答的文本。

这使得它们善于处理需要广泛常识的问题,但也仅限于使用训练库中的信息。它们基于概率生成答案(而非依靠严格规则),这使得它们有时会出现极度不准确的回答(称为幻觉),同时在处理需要多步逻辑的问题时表现不佳,而且在数学问题上的表现也极其糟糕。

多路径推理

推理模型会生成一系列中间步骤,将问题拆分为子问题,并运用逻辑推理来构建答案。它们通常会查阅外部资源以获得指导,并可能尝试多条路径以取得最佳结果。尽管它们比大语言模型更为计算密集,并且需要更为专业的训练,但能够产生更好的结果,幻觉情况更少,而且因会展示整个推理过程而便于审计。

ISG 的 Menninger: “Math is a perfect application of reasoning。” Photo: ISG

“它们并不是按照我所定义的那种推理,但却能够生成与同等情境下理性人所能得到的输出相似的结果。” Anaconda Inc. 的创始首席技术官 Peter Wang 说,Anaconda 是一个针对 Python 语言的开源开发平台。

许多专家认为推理模型是生成式 AI 的未来,因为它们在处理复杂问题时表现更为出色,也不容易出错,尤其擅长解决数学问题。

在去年 9 月介绍 o1 预览版时,OpenAI 报告称,该模型在一项竞赛编程问题测试中得分位于第 89 个百分位,并在美国数学奥林匹克资格赛中跻身美国前 500 名学生之列。它还在一项科学问题基准测试中超过了具博士水平的人的准确率。具体来说,o1 在美国邀请数学考试中的得分为 74%,而 GPT-4o 仅为 12%,并且在允许生成大量候选答案进行评估时得分高达 93%。

数学能力突出

“数学是推理的完美应用,” Information Services Group, Inc.(一家科技研究与咨询集团)的技术研究执行董事 David Menninger 说。“你探索一个问题,沿着一条路径前行,吸取所学后再走另一条路。”

“如果你问一个传统大语言模型如何找到工作,它会草率浏览,并给出最常见的答案。” Gartner Inc. 的分析与 AI 分析师 Kjell Carlsson 表示。“而推理模型会考虑不同的找工作途径,仔细思索,甚至可能进行互联网搜索。背后发生了更多的工作。”

传统大语言模型在训练阶段通常需要更多工作。初始阶段的训练是无监督的,这意味着模型会处理大量无标签文本,并学习从上下文中预测每个词,利用文本来生成标签;而在微调阶段则可能应用监督学习。

与此相反,推理模型通常从一开始就采用监督学习,主要通过两种方式之一进行:链式思考训练和强化学习。

链式思考训练不仅将问题与答案配对,更包括模型的思考过程。在得出最终答案前,它会生成一系列中间推理步骤,帮助将复杂任务拆分为较易处理的小部分。通常需要人工监管,尽管也可能使用“教师”模型来生成中间步骤并对其质量进行过滤。

照亮黑暗

“它在与自己对话,沿着不同的路径探寻,并不断询问自己还应在哪些地方深入挖掘,” Anaconda 的 Wang 说。“这就像拿着手电筒照进黑暗的洞穴,在那些有趣的通道中寻找可供探索的小暗室。”

决定哪一个答案最佳,可能依据训练期间提供的示例、排序算法或通过带权重的决策树来判断哪里答案更优或更劣。

强化学习是一种成熟的机器学习方法,模型通过与环境互动、做出决策,并根据行为获得奖励或惩罚来进行学习。它本质上是通过体验训练,无论是由人类反馈还是用于界定成功与否的算法,都为其提供强化。

强化学习模拟了人类的学习过程,但由于计算机速度远快于人类,其效果常常令人印象深刻。“当你谈论机器超越人类时,你通常在谈论强化学习。” Gartner 的 Carlsson 说道。

边学边用

“目前大多数大型机器学习模型都是在一组数据上训练的,这组数据对于相同输入基本产生一致反应。” Diffblue Ltd. 的工程副总裁 Andy Piper(该公司是软件测试工具的制造商)说。“而强化学习则是在不断过程中学习,它能够在未曾遇到的广阔变量空间中提供结果。”

归根结底,推理系统预期可以为许多问题——特别是复杂问题——提供更优的解决方案。“大语言模型是在预测下一个 Token,而推理更类似于真正的思考。” ISG 的 Menninger 表示。“它会将问题分解,并尝试不同的替代方案。”

当代理系统日益增多时,这种能力的意义将更加重大。它们需要自主行动,并根据目标而非固定规则作决策,这要求有大语言模型所缺乏的推理能力。“如果你打算使用代理系统,你就需要推理能力。” Menninger 说道。

现实中具备推理特性的模型案例比较罕见,但现已有一些代理系统投入生产时具备推理属性。United Parcel Service Inc. 使用名为 On-Road Integrated Optimization and Navigation 的代理系统,使司机的路线尽可能高效。Orion 系统具备自主功能,不断分析实时数据,例如交通状况、天气模式和包裹数量,从而动态调整路线。UPS 表示,该软件已经减少了 1 亿英里的总行驶里程,节约了 3 亿美元的成本,并减少了 10 万公吨碳排放。

Levi Strauss & Co. 采用代理推理进行需求预测,综合了历史销售数据、社交媒体情绪、天气模式和经济信号等信息,以预测各区域及各产品线的需求。自动化库存优化系统则通过实时基于销售数据调整库存水平,动态触发补库存或重新分配货品,从而提高周转率并将缺货与库存过剩风险最小化。AI 驱动的生产计划根据预测需求推荐产量,并通过优化布料裁剪实现材料利用率最大化。AI 辅助定价模型则通过分析市场状况和竞争对手活动,提出促销时机及优惠幅度的最佳方案。

这是否意味着推理系统是生成式 AI 发展的下一个逻辑阶段?一些专家认为确实如此。

大语言模型的未来?

“所有东西都会变成推理系统吗?绝对会。” Pantomath Inc. 的首席技术官 Jeremy Gaerke(该公司开发数据可观测平台)说道。

也有观点认为这两种技术将并行发展。尽管推理模型智能颇高,但其运行较慢且计算开销更大。大语言模型擅长概括大量信息和生成常规文档;在这些场景中,推理模型则显得大材小用。

“这是不同的使用场景。” Gartner 的 Carlsson 说。“大语言模型适用于创建对话文本或实现流程自动化。在许多情况下,推理模型运行缓慢且成本较高。”

你可以这样看待:大语言模型就像一个得来速餐厅 —— 当你只是需要薯条和一个小知识点时非常方便;而推理模型则像一家时尚的小餐馆,厨师会带你细致解析每一道菜。无论你的选择如何,总不会让你挨饿。

来源:SiliconANGLE

0赞

好文章,需要你的鼓励

2025

05/05

12:30

分享

点赞

邮件订阅