近年来,AI智能体的部署规模急剧扩大。麻省理工学院斯隆管理学院与波士顿咨询集团于2025年11月发布的报告显示,35%的受访企业已部署AI智能体,另有44%计划近期跟进落地。
为帮助读者理解这一热门技术的基本原理与潜在影响,MIT新闻专访了电气工程与计算机科学系副教授、计算机科学与人工智能实验室成员Phillip Isola。他长期研究AI智能体的智能机制,以及驱动智能体系统运转的底层模型与技术架构。
AI智能体与生成式AI有何不同
AI智能体是能够在现实世界中执行动作的AI系统。这些动作可以是物理动作,例如机器人操控;也可以是数字动作,例如在线订机票。相比之下,生成式AI的核心能力在于创作故事、诗歌、艺术和图像,而非代替人类执行具体操作。
"智能体"这个词本质上是一个品牌概念,通常指帮助用户与应用程序、网站或物理世界进行交互的AI。目前我们日常接触到的大多是数字智能体,例如可以处理产品投诉的客服智能体。
大多数提供智能体服务的公司,底层都使用相同的少数几个AI模型,并在此基础上赋予其执行动作和记忆信息的能力。一个智能体通常以Claude等基础生成式AI系统为核心,企业再根据自身产品或应用场景,在该基础模型外部封装不同的功能层。这些功能层可能包含特定工具,工具的种类取决于具体应用场景——有的智能体配备了计算器用于解决数学问题,有的则接入了更复杂的存储系统和操作系统,以便记录企业财务数据和历史商业谈判记录。
开发AI智能体面临的最大挑战来自训练数据的匮乏。以"在线订机票"为例,这个任务看似简单,但实际上缺乏足够的数据来详细描述每一步操作——鼠标应该移到哪里、点击哪个按钮、出错时如何处理,乃至如何致电航空公司协商票价。训练此类系统的一种方式,是让AI智能体直接访问航空公司网站,通过不断尝试来判断哪些方法有效、哪些无效。由于这类环境难以精确建模,智能体往往需要依靠试错来完成学习。
AI智能体有哪些前景广阔的应用场景
目前取得最显著成果的领域当属代码智能体,这一方向也是从生成式AI自然演化而来的。研究人员在代码数据上训练大语言模型,使其能够预测人类解决编程问题的思路。与此同时,代码智能体还可以通过反馈循环来提升能力——不断尝试不同的解决方案,并验证结果是否正确。只要能够自我验证,AI智能体就可以持续迭代,直到找到最优策略。
不过,自动化决策与辅助人类决策之间始终存在一个平衡点。预测决策结果的分析型AI方法本身并非智能体,但对人类决策者具有重要的参考价值。对于医疗、安全、高层商业政策等高风险或安全关键场景,当前技术可能尚未具备完全自动化的条件,社会层面也未必对此感到坦然。
使用AI智能体有哪些风险需要关注
一大风险在于,智能体执行某些任务的门槛非常低。以代码智能体为例,用户可以通过"氛围编程"的方式,直接开口让智能体生成代码,无需自己动手完成繁琐工作。正因为如此简单,人们可能不会花足够的精力去验证输出结果是否正确。代码漏洞被引入、私人数据遭泄露——这类问题已经在现实中出现。
智能体并非万能,它可能因训练不足或情况超出认知范围而出错。但即便智能体本身能力很强,如果人类使用不当,或给出的指令过于模糊,智能体同样可能因人类的失误而产生错误结果。当人们越来越少地参与深入思考和全面评估,犯错的概率反而可能上升。
另一个不容忽视的风险是技能退化。当我们将作业、编程、数学计算都交给智能体代劳时,自身能力可能随之退化。更危险的是,这种退化可能在技术尚未成熟、无法完全胜任这些任务之前就已发生。
AI智能体的未来走向何方
目前我们所认知的AI智能体,是指大语言模型借助各类工具与数字及物理系统进行交互的形态。一个显而易见的局限在于,这类系统底层仍采用语言模型架构,并依赖文本数据进行训练。要打造能力更强的AI智能体,未来可能需要处理视频、物理力、时间序列、雷达扫描等多种模态数据,也可能需要开发具有全新架构的模型,以应对连续数据、高维数据、随机数据等复杂场景。
另一方面,也许一个极其优秀的代码模型就能充当"幕后操控者",通过与传感器、执行器和Web API对接来实现各种功能?或许,一旦拥有了真正理解数学、语言和代码的超强推理系统,只需为其配备摄像头和键盘,它就能自行摸索出在空间维度中的行动方式。下一波AI浪潮,究竟只是加装了传感器、执行器和工具的Claude,还是一种从底层全新构建的系统?这正是当前AI领域众多研究者共同面对的核心命题。
Q&A
Q1:AI智能体和ChatGPT这类生成式AI有什么本质区别?
A:AI智能体的核心在于能够在现实世界中执行具体动作,比如订机票、操控机器人等;而ChatGPT这类生成式AI主要负责创作内容,如文章、图像、诗歌等,并不直接代替人类完成操作任务。大多数AI智能体底层其实也使用了生成式AI模型,只是在外面加了工具调用和记忆能力的封装层。
Q2:代码智能体为什么是目前最成熟的AI智能体应用?
A:因为代码任务有明确的对错标准,AI智能体可以通过自动验证结果来完成试错学习,不断优化策略。这种"生成—验证—迭代"的闭环机制,使代码智能体能够高效自我提升,是目前AI智能体中落地效果最好、应用最广泛的方向之一。
Q3:使用AI智能体会导致人类技能退化吗?
A:存在这种风险。当人们长期依赖AI智能体完成编程、数学计算等任务后,自身动手能力可能逐渐下降。更值得警惕的是,这种退化可能在AI技术尚不成熟、无法完全可靠地替代人类之前就已发生,从而造成能力断层。
好文章,需要你的鼓励
跑分只是基准,情绪才是真相。我们整理了 1500 条海外开发者对 GLM-5.2 的评价,发现这个号称能“平替顶级闭源模型”的开源巨兽,最大的争议点竟然是“硬件成本”。当部署一个模型需要“一套房”时,你还愿意本地化吗?
南京大学与阿里巴巴提出MIMFlow,将掩码图像建模与标准化流端到端融合,让生成模型专注语义建模,以更少参数和更少令牌在ImageNet上取得FID 2.50的优异表现。
电动自行车频繁出现在负面新闻中——危险骑行、电池火灾、立法管制。这些问题确实存在,需要通过教育、执法和安全标准加以解决。但更大的图景常被忽视:数百万人因此骑车通勤、重拾运动、减少开车,带来健康、减排和出行独立性等多重效益。研究也表明,电动自行车骑行具有显著心肺锻炼价值。正如汽车不能只以醉驾定义,电动自行车也不应仅凭最坏案例被评判。
清华大学提出VG-GUI-Bench评测视频引导操作能力,并设计TASKER关键帧搜索算法,在视频问答和GUI智能体任务上均实现性能与效率的双重提升。