AI智能体仍需人类传授技能才能有效运作

最新研究表明,AI智能体需要特定的程序化知识技能才能良好执行任务,但无法自主学习这些技能。研究人员开发了SkillsBench基准测试,评估AI在医疗、制造、网络安全和软件工程等11个领域84项任务中的表现。测试显示,配备人工策划技能的智能体比无技能智能体平均得分高16.2个百分点,而自主生成技能的智能体性能无提升,证明AI仍需人类干预指导。

AI智能体需要技能——特定的程序性知识——才能良好地执行任务,但它们无法自我学习,一项新研究表明。

研究作者开发了一个新的基准测试工具SkillsBench,该工具在11个领域的84项任务上评估智能体AI的表现,包括医疗保健、制造业、网络安全和软件工程等领域。研究人员在三种条件下观察每项任务:无技能(智能体仅接收指令)、有策划技能(提供目录、代码片段和资源来帮助它)以及自生成技能(智能体没有技能但被提示开发它们)。

典型任务包括对npm依赖项进行安全审计以查找漏洞,或分析癌细胞系数据中的差异蛋白质表达。

最佳表现来自具有策划技能的智能体,其得分平均比无技能智能体高16.2个百分点,这表明AI目前还无法摆脱人类干预。即便如此,在84项任务中的16项任务里,人类指导对结果产生了负面影响。

不同行业领域的表现差异很大,策划技能在医疗保健任务中影响最大,但在软件工程方面影响很小。

被要求生成自己技能的智能体表现没有提升,显示AI仍然需要一些人类提示才能完成工作。

Q&A

Q1:SkillsBench是什么?它能做什么?

A:SkillsBench是研究人员开发的新基准测试工具,用于评估智能体AI在84项任务上的表现,涵盖医疗保健、制造业、网络安全和软件工程等11个领域。

Q2:AI智能体在哪种条件下表现最好?

A:具有策划技能的智能体表现最佳,其得分平均比无技能智能体高16.2个百分点,这表明人类提供的技能指导对AI表现至关重要。

Q3:AI智能体能否自己学会新技能?

A:研究显示不能。被要求生成自己技能的智能体表现没有任何提升,证明AI仍然需要人类的提示和指导才能有效完成工作。

来源:Computerworld

0赞

好文章,需要你的鼓励

2026

02/25

13:25

分享

点赞

邮件订阅