AI智能体的部署近年来呈现爆炸式增长。麻省理工学院斯隆管理学院与波士顿咨询集团于2025年11月发布的一份报告显示,35%的受访企业已经部署了AI智能体,另有44%的企业计划在近期落地智能体AI。
为深入理解这些日益普及的工具的基本原理及其潜在影响,MIT新闻采访了电气工程与计算机科学系(EECS)副教授、计算机科学与人工智能实验室(CSAIL)成员Phillip Isola。他长期研究AI智能体所具备的智能,以及驱动智能体AI系统运作的底层模型与机制。
什么是智能体AI,它与ChatGPT、Claude等生成式AI有何不同?
智能体AI是一种能够在真实世界中执行操作的AI。这些操作可以是物理动作,例如机器人操控;也可以是数字动作,例如预订机票。相比之下,生成式AI更多是用来创作故事、诗歌、艺术和图像,而不是代替我们采取行动。
"智能体"这个词只是一个品牌标签,通常指帮助人们与应用程序、网站或物理世界进行交互的AI。我们今天接触到的大多数智能体都是数字智能体,比如可以处理产品投诉的客服智能体。
大多数提供智能体服务的公司,在底层使用的是同一批AI模型,并赋予其执行操作和记忆历史信息的能力。一个智能体的核心通常是Claude这样的基础生成式AI系统,然后各公司会根据自身产品或应用场景,在这个基础模型外面包裹不同的功能层。这些功能层可能包括特定工具,具体取决于应用场景。比如,智能体可能接入计算器来解决数学问题,也可能接入更复杂的存储系统和操作系统,从而记住某家公司的财务数据和过往商业谈判内容。
开发智能体AI面临的最大挑战来自训练数据的匮乏。如果我想创建一个能上网帮我订机票的系统,听起来似乎很简单。但实际上,我们并没有大量详细描述如何完成这件事的数据——比如鼠标应该移到哪里、点击哪个按钮、出错时该怎么处理,或者如何打电话协商机票价格。训练这类系统的一种方式,是让AI智能体自行访问航空公司网站,反复尝试,从成败中学习。由于这些环境很难建模,智能体往往只能通过试错来成长。
智能体AI有哪些值得期待的应用场景?
目前取得最显著成果的领域是编程智能体。这是从生成式AI发展而来的。人们用代码训练大语言模型,使其能够预测人类解决编程问题时的操作路径。此外,智能体还可以通过反馈循环来学习——不断尝试不同的解决方案,并验证结果是否正确。只要能够检验答案,AI智能体就可以持续进行这种试错循环,直到找到有效策略。
但自动化决策与辅助人类决策之间,始终需要保持平衡。分析类AI方法——例如帮助预测决策可能结果的系统——并不具备智能体属性,但对人类决策者而言极具参考价值。对于医疗、安全、高层商业政策等高风险或安全关键型场景,技术可能尚未成熟到能够完全自动化这些流程,而且我们自身也未必愿意接受这种程度的自动化。
使用AI智能体时,有哪些风险需要关注?
一大风险在于,AI智能体往往能很轻松地帮你完成某些工作。以编程智能体为例,你可以"凭感觉写代码",直接让智能体帮你生成代码,省去了自己动手的麻烦。但正因为太过便捷,人们可能不会花足够的精力去核验结果是否正确。由此带来的后果是:代码漏洞被引入,私人数据遭到泄露——这些问题已经在现实中发生。
智能体并非无懈可击,它们可能因训练不足或面对陌生情境而出错。但即便智能体本身能力很强,如果人类使用不当,或给出的指令过于模糊,智能体同样可能因为人的失误而出错。一旦人类减少对各种后果的深入思考,我认为我们犯错的概率会更高。
此外,技能退化也是一个不容忽视的风险。当我们越来越依赖智能体来完成作业、编程和数学运算时,我们自身的能力可能会逐渐退化。更令人担忧的是,这种退化可能发生得过早,而彼时技术尚不足以完全承担这些任务。
智能体AI的未来走向何方?
我们现在所说的智能体AI,通常是指大语言模型借助工具与数字和物理系统进行交互。一个显而易见的局限在于,这些系统在底层采用的是语言模型架构,训练数据也以文本为主。要构建更强大的AI智能体,我们可能需要处理视频、物理力学、时间序列、雷达扫描等多种数据模态,也可能需要从根本上采用不同的架构,以应对连续数据、高维数据和随机数据等挑战。
但另一方面,也许一个极其出色的编程模型,就能充当"幕后操控者",与传感器、执行器和网络API进行对接?一旦拥有一个能够理解数学、语言和代码的超级推理系统,给它配上摄像头和键盘,它也许就能自行摸索出如何应对空间领域的挑战。下一波AI浪潮,究竟是"配备了传感器、执行器和工具的Claude",还是从底层全新构建的全新形态?这正是AI领域众多研究者当下正在深思的核心问题。
Q&A
Q1:智能体AI和生成式AI有什么区别?
A:生成式AI主要用于生成内容,比如文章、图像、诗歌等;而智能体AI的核心在于"行动",它能在数字或物理世界中执行具体操作,比如预订机票、处理客服投诉等。大多数智能体AI是在生成式AI基础模型(如Claude)之上,加入工具调用和记忆能力构建而成的。
Q2:AI智能体在哪些领域应用效果最好?
A:目前最成功的应用是编程智能体。由于编程任务的答案可以被明确验证,AI智能体可以通过不断试错和反馈循环来优化策略,效果显著。相比之下,医疗、安全等高风险领域由于对可靠性要求极高,目前尚不适合完全交由AI智能体自主决策。
Q3:使用AI智能体会带来哪些风险?
A:主要有三类风险:一是验证不足,人们因为使用便捷而忽视结果核验,导致代码漏洞或数据泄露;二是人为指令失误,模糊或错误的指令会让智能体做出错误行为;三是技能退化,长期依赖智能体可能导致人类自身能力下降,而技术目前尚不足以完全替代人类判断。
好文章,需要你的鼓励
在2026年爱迪生电气协会年会上,共和党籍佐治亚州长肯普与民主党籍亚利桑那州长霍布斯罕见达成共识:数据中心带来的电网扩容成本不应转嫁给普通居民。两位州长均支持"增长自付"原则,并倡导多元化能源组合。肯普强调核电与冻结居民电费,霍布斯则推动取消数据中心税收豁免并征收水费。两人跨越党派分歧的一致立场,折射出美国电力行业应对数据中心爆发式增长的主流方向。
这项研究系统比较了四种AI图像分词策略在640000张星系图像上的表现,发现重建质量与物理属性预测能力之间存在根本性解耦,为天文基础模型的分词器选择提供了实验依据。
北美电网今夏首次无高风险区域,NERC评估显示58GW新增资源使各地储备充足。然而业内专家普遍警告,这不过是暂时喘息:数据中心并网延迟、太阳能与储能主导新增供应、劳动力短缺、融资困难及气候依赖性上升等问题依然严峻。预计未来两三年内,延迟的数据中心负荷将集中上线,电力系统将面临更大压力,并购整合浪潮也在加速重塑行业格局。
阿里Qwen团队研究如何将大模型的规模化训练思路迁移到机器人操作领域,通过统一多机器人表示与38100小时数据预训练,让机器人在陌生场景和陌生机型上也能完成复杂操作任务。