哪些自主或半自主智能体在当今世界产生最大影响,并可能影响您的工作?某些智能体最近占据所有头条,但开发者和用户还可以使用许多功能专用的智能体。
麻省理工学院的人工智能实验室CSAIL致力于AI研究,着手识别和记录这些智能体的背景和能力,其发现详述在最新的AI智能体指数中。研究人员对1350个数据点的先进AI智能体进行了生态系统范围的分析。
领先智能体的功能和起源是什么?研究人员发现接口是最丰富的,其次是企业工作流平台。他们还发现了这些智能体共同面临的风险。
MIT指数中的智能体包括以下内容:
以下是研究人员识别的三个主要智能体类别:
企业工作流智能体(30个系统中的13个):这些是具有自主功能的平台,用于自动化业务任务。例子包括Microsoft 365 Copilot和ServiceNow Agent。
具有自主工具的聊天应用(12个系统):根据研究人员的说法,这个类别主要包括具有广泛工具访问权限的聊天接口。例子包括通用编程智能体如Claude Code,以及嵌入更广泛产品中的智能体如Manus AI和ChatGPT Agent。
基于浏览器的智能体(5个系统):这些是主要接口为浏览器或计算机使用的智能体,具有广泛的浏览器/计算机交互工具。"它们与具有网络搜索功能的聊天智能体不同——ChatGPT网络搜索、Claude网络搜索——后者主要执行检索和摘要,"研究人员表示。"基于浏览器的智能体通过后台执行、事件触发器和直接交易带来更高风险。"例子包括Perplexity Comet、ChatGPT Atlas、ByteDance Agent TARS。
AI智能体的主要用例横跨上述类别,包括研究和信息综合,这在30个智能体中的12个中可见,涵盖消费者聊天助手和企业平台。紧随其后的功能是跨业务职能的工作流自动化——如人力资源、销售、支持和IT——由11个智能体启用,主要存在于企业产品中。专注于图形用户界面或浏览器功能的智能体,用于表单、订购和预订等任务,存在于7个模型中。
研究人员发现,自主性水平差异很大。以聊天为主的助手保持最低的自主性水平。这些基于轮次交互,包括Anthropic Claude、Google Gemini和OpenAI ChatGPT,它们"执行单一操作集并等待下一个用户提示"。
在自主性的高端,浏览器智能体提供更多"中途执行干预的有限机会"。这些包括Perplexity的Comet,一旦提示就自主执行任务。"一旦发送查询,用户无法轻易干预或引导智能体,直到它完成。"
企业平台在智能体自主性方面存在分歧。"在设计阶段,用户使用可视化画布手动配置触发器、动作和护栏,"研究人员写道。其他可能为此过程提供AI协助。一旦部署,这些智能体通常在更高的自主性水平下运行,"由新电子邮件或数据库更改等事件触发,在实际任务执行期间没有任何人为参与。"此类智能体包括Glean、Google Gemini Enterprise、IBM watsonx、Microsoft 365 Copilot、n8n和OpenAI AgentKit。
一些产品被视为开发者/命令行接口智能体,需要对文件编辑和命令执行等敏感操作进行明确确认。某些智能体为关键操作提供"监视模式"以进行实时监督,包括ChatGPT Agent/Atlas和Opera Neon。
研究还发现,智能体开发者集中在美国和中国,其他地区的代表性有限。
Q&A
Q1:MIT研究报告中识别了哪些主要AI智能体类别?
A:MIT研究识别了三个主要AI智能体类别:企业工作流智能体(13个系统),主要用于自动化业务任务如Microsoft 365 Copilot;具有自主工具的聊天应用(12个系统),包括Claude Code等编程智能体;基于浏览器的智能体(5个系统),如Perplexity Comet等,主要通过浏览器交互执行任务。
Q2:AI智能体的自主性水平有什么不同?
A:智能体自主性水平差异很大。聊天助手如ChatGPT保持最低自主性,需要用户逐步提示。浏览器智能体如Perplexity Comet提供更高自主性,一旦启动就自动执行直到完成。企业平台智能体在配置后可以高度自主运行,由事件自动触发而无需人为干预。
Q3:AI智能体主要应用在哪些领域?
A:AI智能体的主要应用领域包括:研究和信息综合(12个智能体支持),涵盖消费者和企业平台;工作流自动化(11个智能体),涉及人力资源、销售、支持和IT等业务职能;图形用户界面或浏览器操作(7个智能体),用于表单填写、订购和预订等任务。
好文章,需要你的鼓励
"影子AI"是指员工在未经公司批准的情况下使用AI工具办公。虽然ChatGPT等工具能提升效率,但将内部文件、客户数据或源代码输入未授权平台,可能导致企业数据失控。IBM报告显示,20%的企业存在未授权AI工具,63%尚无AI治理政策。专家建议,一味封禁效果有限,企业应明确哪些工具可用、哪些数据禁止上传,员工也应主动核查AI输出内容,避免将敏感信息粘贴至公共AI平台。
阿里Qwen团队通过引入强化学习和在线策略蒸馏,将Qwen-Image-2.0升级为Qwen-Image-2.0-RL,让图像生成模型真正学会人类审美,文生图Elo评分提升78分,图像编辑提升93分。
Hirebotics联合Fanuc发布首款基于无代码Beacon平台的防爆协作喷涂机器人Cobot Painter。该方案适用于金属制造商,无需专用喷涂房或复杂编程,可在现有人工喷涂环境中数日内完成部署。操作人员通过平板或手机的"点击示教"功能即可引导机器人完成路径学习,实现液体涂料、粉末涂装等高精度重复作业,帮助制造商将涂装业务收回自主管理。
港科大与快手联合提出NormGuard,针对流匹配模型强化学习训练中速度范数膨胀问题,通过训练时单向惩罚约束,在保留奖励的同时改善图像真实感。