真正的智能体AI还需要数年时间才能实现

尽管微软、Salesforce等科技巨头推出了各种AI代理产品,但目前的代理只是简单自动化工具,远未达到真正代理的定义。研究显示,当前LLM在复杂多步骤规划任务中频繁失败,AI项目失败率超过80%。真正的智能代理面临两大技术挑战:强化学习需要扩展以支持长期自主活动,记忆管理系统需要彻底重构。预计至少需要五年时间才能实现可靠的智能代理。

关注ZDNET:将我们添加为Google上的首选信息源。

企业技术巨头——微软、ServiceNow、Salesforce等公司——在过去一年半的时间里推出了各种类型的人工智能智能体,这些程序能够在其各自的软件套件中自动化许多任务。

另请参阅:AI终结了云优先战略:为什么混合计算现在是唯一的前进道路

这些供应商希望这些智能体能够实现他们认为的生成式AI的真正承诺:让企业工作更加流畅和高效。

虽然这些智能体可能会带来好处,但它们并不是我们真正想要的智能体。它们只是简单的自动化程序,无法满足智能体的真正定义。因此,企业对智能体的期望可能在短期内遭遇严重失望。智能体缺乏关键技术,可能需要另一代AI演进才能带来预期的好处。

关键挑战在于:我们如何开发大语言模型——比如OpenAI的GPT和Google的Gemini——使其能够在长时间跨度内运作,拥有广泛目标;与环境(包括工具)交互;持续检索和存储数据;以及——最大的挑战——从零开始设置新目标和策略。

我们还没有达到那个程度,甚至还差得很远。今天的机器人仅限于聊天交互,在这个狭窄的操作环境之外经常失败。例如,微软在Microsoft 365生产力套件中所称的"智能体",可能是最知名的智能体实例,实际上只是自动生成Word文档的一种方式。

市场数据显示智能体并未起飞。本月由风险投资公司Menlo Ventures发布的研究显示,增长最快的AI应用领域几乎完全由更简单的副驾驶程序组成,如ChatGPT Enterprise、Claude for Work和Microsoft Copilot,相对于智能体AI,包括Salesforce Agentforce、Writer和Glean。

另请参阅:当Google和OpenAI争夺模型主导地位时,Anthropic正悄然赢得企业AI竞赛

简单的自动化确实可以带来好处,比如协助呼叫中心操作员或快速处理大量发票。然而,越来越多的学术和技术报告强调了当今智能体的局限性,它们未能超越这些基本自动化。

正如斯坦福大学和纳瓦拉大学IESE商学院的研究员Gaurav Kumar和Anna Rana在本月发布的智能体概述中简洁指出的:"大语言模型在推理和规划方面表现出令人印象深刻的能力,但基于大语言模型的智能体在复杂的多步骤规划任务中继续失败,经常表现出约束违反、不一致的状态跟踪,以及在细微变化下就会崩溃的脆弱解决方案。"

行业也注意到了这个问题。正如微软商业业务CEO Judson Althoff本月在华尔街技术会议上所说:"AI项目的失败率极高,超过80%。"虽然他没有特别提到智能体,但智能体的实施尝试可能是AI实施中较为棘手的方面。

目前有许多智能体工具可用,但它们并不是答案。像微软的Foundry IQ这样的产品让公司能够构建数千种不同类型的智能体。这很好,但智能体的缺陷在技术基础层面是固有的,精美的工具不会解决这些缺陷。

另请参阅:微软的新AI智能体不仅会帮助我们编码,现在它们还会决定编写什么代码

微软和其他巨头有大量员工帮助客户构建"智能体工作流"——他们派遣现场"前沿部署工程师"团队进行指导。这很好,但指导不会修复根本的技术缺陷。

在智能体能够实现微软和其他公司宣传的"完全自主代码"之前,它们必须克服两个主要的技术缺陷。整个行业的持续研究都专注于这两个挑战:

强化学习,已经存在了几十年,在使AI能够在非常长的时间跨度内执行任务方面表现出惊人的结果。

最著名的例子是Google DeepMind的AlphaZero,它能够从零开始制定国际象棋和围棋的规则,然后以等于或优于人类的水平完成整个游戏。这都是强化学习的结果。

另请参阅:AI学者因使AlphaGo国际象棋胜利成为可能的技术获得图灵奖

强化学习涉及AI程序生成在给定环境状态下采取行动将产生的奖励预测,然后制定行动策略以获得这些奖励。

强化学习越来越多地用于改善大语言模型对问题的"推理",比如在2025年初震惊世界的DeepSeek AI模型。

几个项目正在尝试将强化学习扩展到推理功能之外,以实现智能体的持续活动。

中国科学技术大学的程明月和同事们在11月推出了他们称为Agent-R1的技术,这是一种用强化学习训练大语言模型以预测奖励和制定策略的方法。

程团队强调,智能体必须超越自动化工作流和简单提示,采取更自主的方法。

"工作流依赖于人类设计的路由或规划,而完全自主的智能体移除了预定义的工作流,通过端到端的行动-反馈循环主动与环境交互,"团队写道。

为了构建能够进行多项操作而无需不断提示的东西,程团队必须向大语言模型添加组件——比如协调器。协调器监控智能体使用工具时发生的事情,比如通过API调用外部程序。然后它更新诸如环境模型、奖励和策略等内容。

虽然R1在"多跳"任务(具有多个连续任务的类型)上比有提示的大语言模型表现更好,但程团队强调,在他们看来,智能体AI是一个"新兴领域"。

"强化学习在大语言模型智能体中的有效应用仍处于初期阶段,面临相当大的挑战,"他们写道。

另一个由西湖大学孙明阳领导的团队本月推出了Sophia,他们将其描述为一个"包装器",使大语言模型能够在与网络浏览器交互时执行"长时间"的任务。

另请参阅:即使是最好的AI智能体也被这个协议所困扰——能做些什么

孙团队强调,Sophia是一个原型,更多是如何向大语言模型添加强化学习的概念验证。

即使在孙团队乐观的观点中,今天的大语言模型远不是真正的智能体。"大语言模型的快速发展已经将AI智能体从任务特定工具提升为能够独立规划和战略合作的长生命周期决策实体,"他们写道。"然而,大多数现有架构仍然是被动的:它们依赖于手工制作的配置,在部署后保持静态,为狭窄任务或固定场景而设计。"

在地平线上隐现着强化学习本身的重大转变,这可能是一个福音或进一步复杂化事务。AI能比人类更好地设计强化学习吗?

这是Google DeepMind单位(AlphaZero的创造者)在本月发表在《自然》杂志上的研究中提出的问题。一个名为DiscoRL的AI程序自动发明改进的强化学习算法,进而产生更好的智能体。

DiscoRL方法是一种元学习方法,观察多个智能体的结果,然后精炼每个智能体制定的预测和策略。因此,它可以为"根本不同的环境"适应智能体,不像通常针对给定问题的手工制作的强化学习规则。

另请参阅:企业没有为恶意AI智能体的世界做好准备

DeepMind团队将这种方法称为让智能体"为自己发现学习算法"。

这可能通过消除人类设计的强化学习来加速整个强化学习领域,就像AlphaZero摆脱了人类的国际象棋和围棋示例,而是通过发现游戏规则来掌握游戏。

未知的是这种方法能有多通用。DeepMind描述了DiscoRL智能体如何掌握雅达利视频游戏,如吃豆小姐。但这是一个先前强化学习已经证明有用的领域。这种方法能够从零开始掌握企业客户关系管理或保险理赔处理工作流吗?我们还不知道。

等待发生的另一个关键技术突破是对智能体如何存储和检索数据的完全重新思考,广义上称为智能体的内存使用。

通过强化学习开发的AI智能体必须维护环境历史,包括已采取的行动和智能体在整体行动策略中的当前位置——与内存密切相关的功能。

今天的大语言模型在多轮对话中难以维持对话线索。

任何人使用聊天机器人进行大项目都会注意到错误变得更频繁,因为机器人有时会错误地插入在对话中很早就出现的信息。当我使用ChatGPT几天来制定商业计划时,我自己描述了这种情况,它开始将不正确的变量插入计算中。

研究人员在智能体方面看到了同样类型的长时间工作失败。

斯坦福大学以人为本AI小组在其4月发布的年度AI状态报告中指出,智能体在被要求执行更长时间时会落后于人类能力。"在短时间设置(两小时预算)中,顶级AI系统的得分比人类专家高四倍,但随着时间预算的增加,人类表现超过了AI——在32小时时以二比一的比分超过它。"

另请参阅:AI模型竞赛突然变得更加激烈,斯坦福学者说

在本月发表的报告中,新加坡国立大学的主要作者胡雨阳和合作机构写道,内存是缓解此类失败的关键。

典型的大语言模型只使用其最新数据,即其"上下文窗口"中的内容,比如您在提示中输入的最新信息。

然而,要成为"能够通过环境交互持续适应的适应性智能体",如他们所说,智能体需要"从先前交互中得出的额外信息,无论是在当前任务内还是在先前完成的任务中"。

大量工作已经花在检索方法上,如检索增强生成(RAG)和向量数据库。事实上,胡团队已经组装了智能体可以访问的所有类型内存的精彩示意图。值得仔细查看:

但胡团队认为,在内存中拥有历史是不够的;内存管理本身必须发展。他们的观点(目前纯属理论)是,整个内存控制最终将被重新发明,因为智能体通过强化学习"学习"如何存储和检索数据。

你可以看到这有点像一个循环问题:强化学习需要新形式的计算机内存存储和检索才能进步,但开发新形式的内存管理本身可能依赖于强化学习。

这样的大步骤不会在一夜之间发生。这不是单个公司,如DeepMind或微软,提供新的大语言模型甚至新的大语言模型工具的问题。所需要的是技术飞跃。

这些事情也不太可能很快通过人工通用智能(AGI)神奇地解决,AGI是AI的传奇顶峰,程序在其中实现某种形式的智能活动,广义上说等于人类思维。

我们见过的强化学习的最伟大例子AlphaZero,不是通用智能;它是特定的问题解决者。它解决了国际象棋,因为国际象棋的规则可以仔细定义,而且因为它是一个"完全信息"游戏,其中所谓的环境、棋盘和棋子,可以明确和完整地描述。

企业计费实践、客户服务电话和IT故障单管理的情况并非如此。再次,我们不知道DiscoRL方法从雅达利推广到这些更复杂任务的效果如何。

结论:考虑到重新设计强化学习和内存的复杂性,我们有很长的等待时间。从Google原始的、突破性的大语言模型Transformer在2017年,到它的后代ChatGPT在2022年,根据行业实现可靠智能体所需时间的乐观估计,我们还需要另外五年。

Q&A

Q1:当前的AI智能体有什么局限性?

A:当前的智能体只是简单的自动化程序,无法满足真正智能体的定义。它们仅限于聊天交互,在长时间工作中容易出现错误,无法进行复杂的多步骤规划任务。市场研究显示,AI项目失败率超过80%,智能体应用还未真正起飞。

Q2:强化学习如何改进AI智能体的能力?

A:强化学习能让AI在长时间跨度内执行任务,通过预测奖励和制定策略来改进智能体表现。Google的AlphaZero就是成功案例。目前研究者正在开发Agent-R1和Sophia等新技术,但这个领域仍处于初期阶段,面临相当大的挑战。

Q3:真正的智能体AI什么时候能实现?

A:根据技术发展历程,从Google的Transformer(2017年)到ChatGPT(2022年)用了5年时间。考虑到需要重新设计强化学习和内存管理等复杂技术,乐观估计实现可靠的智能体还需要另外5年时间。这需要整个行业的技术飞跃,不是单个公司能解决的。

来源:ZDNET

0赞

好文章,需要你的鼓励

2026

01/04

08:37

分享

点赞

邮件订阅