AI智能体仍需人类指导才能有效执行任务

最新研究显示，AI智能体需要特定的程序性技能知识才能良好执行任务，但无法自主学习这些技能。研究团队开发了SkillsBench基准测试，评估了AI智能体在医疗、制造、网络安全和软件工程等11个领域84项任务中的表现。测试分为三种条件：无技能指导、人工策划技能指导和自生成技能。结果显示，获得人工技能指导的智能体平均得分比无指导的高16.2个百分点，表明AI仍离不开人类干预。在医疗领域效果最显著，但在软件工程领域改善有限。

AI智能体需要技能——具体的程序性知识——才能很好地执行任务，但新研究表明它们无法自我学习这些技能。

研究人员开发了一个名为SkillsBench的新基准测试，评估智能体AI在11个领域84项任务中的表现，涵盖医疗保健、制造业、网络安全和软件工程等领域。研究人员在三种条件下测试每项任务：无技能（智能体仅接收指令）、有策划技能（提供目录、代码片段和资源帮助）以及自生成技能（智能体无技能但被提示开发技能）。

典型任务包括对npm依赖项进行安全审计以发现漏洞，或分析癌细胞系数据中的差异蛋白表达。

最佳表现来自具有策划技能的智能体，其平均得分比无技能智能体高16.2个百分点，表明AI仍然离不开人类干预。即便如此，在84项任务中的16项中，人类指导对结果产生了负面影响。

不同行业领域的表现差异很大，策划技能对医疗保健任务影响最大，但对软件工程影响较小。

被要求生成自己技能的智能体没有表现出性能提升，显示AI仍需要一些人类提示才能完成工作。

Q&A

Q1：什么是SkillsBench基准测试？

A：SkillsBench是研究人员开发的一个新基准测试，用于评估智能体AI在11个领域84项任务中的表现，涵盖医疗保健、制造业、网络安全和软件工程等领域。它通过三种不同条件测试智能体的技能表现。

Q2：AI智能体能否自己学习技能？

A：研究表明AI智能体无法自我学习技能。被要求生成自己技能的智能体没有表现出性能提升，显示AI仍需要人类提示和指导才能有效完成工作，不能完全独立运作。

Q3：人类指导对AI智能体的效果如何？

A：具有人类策划技能的智能体平均得分比无技能智能体高16.2个百分点，表明人类指导总体上是有效的。但在84项任务中的16项中，人类指导对结果产生了负面影响，且不同行业领域效果差异很大。

来源：InfoWorld

0赞

好文章，需要你的鼓励

AI智能体仍需人类指导才能有效执行任务

来源：InfoWorld

2026

02/25

15:17

分享

点赞

特斯拉疑似删除FSD证据，卡特彼勒加速电动化布局，高压系统技术培训刻不容缓

智能体网络流量首超真人访问，"死亡互联网"理论引发新争议

Mentium Technologies Luna-R1 AI芯片入选ET-01星座任务，完成多星部署里程碑

汤道生×姚顺雨：腾讯AI下半场，拼的是“模型×产品”系统能力

AI驱动网络犯罪数量飙升，勒索软件受害者年增389%：Fortinet 发布2026年全球威胁态势研究报告

Inbolt将在Automate展会发布视觉驱动机器人编程新功能

笔记本电脑深度清洁指南：内外兼修焕然一新

加利福尼亚州城市通过全美首个由选民投票决定的数据中心禁令

柴油替代方案：AI数据中心如何利用燃气引擎与蒸汽涡轮供电

AI定义汽车时代，车载以太网可靠性面临全新挑战

安全算法的持续更新正变得愈发困难

轨道数据中心本质上是功能强化的卫星

AMD获得Meta千亿美元AI芯片订单，股价暴涨8%

90%的销售团队使用AI智能体，但半数面临数据问题

用技术与政策强化海事网络安全防护体系

西班牙准独角兽Multiverse Computing发布免费压缩AI模型

Arrcus推出策略感知网络架构解决AI推理瓶颈

AI擅长发现漏洞，但修复能力仍显不足

Oura推出专注女性健康的专有AI模型

音乐生成器ProducerAI正式加入谷歌实验室

Anthropic推出企业智能体计划，集成金融工程设计插件

Meta与AMD签订芯片协议或获得10%股份

如果您非常迫切的想了解IT领域最新产品与技术信息，那么订阅至顶网技术邮件将是您的最佳途径之一

因湃电池 × 达索系统：如何共创出一套电池产业最佳实践

AI走进真实世界之后：安全、健康与产业的新命题

CES 2026

2025 re:Invent ：亚马逊云科技把Agentic AI生态梳理明白了

关注官方公众号

关注官方微博

关注官方喜马拉雅

友情链接

业界热点: