AI安全组织发现智能体工具实际拖慢开源开发者效率

AI安全组织METR通过随机对照试验发现，经验丰富的开源开发者使用AI工具时，完成任务时间比不使用工具时延长19%。研究涉及16名开发者，平均每个任务耗时2小时。研究人员认为，AI基准测试可能高估了AI能力，因为现实开发中存在需要人类直觉和常识解决的问题，而AI模型在这些方面表现不足。

虽然AI实体本身可能存在重大的黑盒问题，但我们至少能够以一定程度的准确性测量它们对生产力的影响。那么，为什么研究人员发现，在实践中，使用AI工具反而会拖慢从事各种开源项目的开发者，而不是加速他们的工作？AI不是应该以效率为原则吗？

最近，科技媒体热议一个名为METR的组织披露的这些奇怪发现。这些发现来自一项随机对照试验(RCT)，旨在弄清楚AI工具如何"影响在自己代码库上工作的经验丰富的开源开发者的生产力"。

研究团队没有发现他们预期的结果。

"令人惊讶的是，我们发现当开发者使用AI工具时，他们比不使用时多花费19%的时间，"METR人员简洁地写道。"AI让他们变慢了。"

研究机制解析

文档显示了这项研究是如何进行的。METR找到了16名经验丰富的开发者，他们编制了通常会处理的问题和任务清单——处理错误、添加功能和重构代码。使用工具的开发者可以选择工具，通常使用配备Claude 3.5/3.7 Sonnet的Cursor Pro，或者独立完成平均耗时两小时的任务。

无论是否使用工具，评估流程都保持一致：实现问题、开启拉取请求、处理审查、合并拉取请求、报告时间。

开发者还分享了更多详细信息，这些可以在METR在线发布的项目评论中找到。

效率下降原因分析

AI工具为何拖慢开发者这个问题值得深入考虑，其中存在一些缓解因素。METR作者这样解释这种差异：

"虽然编程/智能体基准测试对理解AI能力很有用，但它们通常为了规模和效率而牺牲现实性——任务是自包含的，不需要先前的上下文来理解，并使用算法评估，无法捕捉许多重要能力。这些特性可能导致基准测试高估AI能力。另一方面，由于基准测试在没有实时人机交互的情况下运行，模型可能无法完成任务，尽管取得了实质性进展，因为一些小瓶颈在实际使用中人类会修复。"

换句话说，人类可以修复对他们来说直观的问题，而机器无法轻易掌握。这让我想起大语言模型不理解物理学——它们可以渲染各种物体并将其放入视频中，但不会自动理解这些物体在实时中如何移动。我们人类会。这部分是因为我们一次又一次地看到鸟类、飞盘或其他东西在风中飘荡。是我们的累积经验给我们带来了运动知识，而不是书本。这同样适用于代码——在那些我们直觉理解的"常识"问题上，模型往往表现不足。

此外，作者还指出了一些免责声明。其中之一是他们承认，如果开发者使用这些工具的时间更长，克服学习曲线的成果可能会显现，或者隐藏的效率可能会浮现。

"我们的随机对照试验结果在可以从模型中采样数百或数千条轨迹的环境中相关性较低，而我们的开发者通常不会尝试这样做，"他们写道。"也可能存在像Cursor这样的AI工具的强学习效应，只有在使用几百小时后才会出现——我们的开发者通常在研究前和研究期间只使用Cursor几十小时。"

无论如何，这些发现说明了技术专业人士长期以来就知道的一个原则，这个原则在大数据时代和云时代都成立：技术可以帮助或阻碍劳动力，这取决于它与所应用流程的匹配程度。看起来早期智能体工具也是如此。

METR组织背景

那么这个组织是从哪里来的？

粗略了解发现，METR由Beth Barnes创立，她曾是OpenAI的对齐研究员。在这种情况下，对齐意味着确保AI做它应该做的好事，而不会偏离到危险领域。Barnes于2022年以ARC Evals的名义创立了METR，并于2023年底从对齐研究中心(ARC)分离出来，成为一个独立的非营利组织。至于对齐研究中心(ARC)本身，这个非营利研究组织显然是由Paul Christiano于2021年创立的，他之前也在OpenAI的对齐团队。

组织架构可能有点复杂，但看起来METR准备为我们带来更多这类有用的研究，因为AI社区持续发现更多关于大语言模型能力的信息。这不是一个小行业，在商业应用方面也不是小事。AI威胁（或承诺）要彻底改革几乎所有行业的几乎所有业务流程，因此继续关注技术前沿的发现是值得的。

Q&A

Q1：METR是什么组织？它进行了什么研究？

A：METR是一个AI安全研究组织，由前OpenAI对齐研究员Beth Barnes创立。该组织进行了一项随机对照试验，研究AI工具对经验丰富的开源开发者生产力的影响，发现使用AI工具的开发者比不使用时多花费19%的时间。

Q2：为什么AI工具会拖慢开发者的工作效率？

A：主要原因是AI工具缺乏人类的常识理解能力。基准测试往往高估AI能力，而在实际工作中，人类可以直觉地修复一些机器无法轻易掌握的问题。此外，开发者可能需要更长的学习曲线才能有效使用这些工具。

Q3：这项研究结果对AI工具的未来发展有什么启示？

A：研究表明技术工具能否提高效率取决于它与应用流程的匹配程度。对于早期智能体工具，可能需要更长时间的使用和学习才能体现效率提升，同时需要在更现实的使用场景中进行更深入的研究和优化。

来源：Forbes

0赞

好文章，需要你的鼓励

AI安全组织发现智能体工具实际拖慢开源开发者效率

来源：Forbes

2025

09/29

08:28

分享

点赞

WAIC2026 现场直击：开普勒顶流人气王，麒麟系列火爆出圈

面壁智能将密度定律带入具身智能

龙磁科技拟投3.58亿元扩建越南永磁铁氧体基地

首创一层Scale-up网络256卡全互联，摩尔线程MTT C256超节点为万卡及十万卡级集群夯实底座

从高血压诊疗入手，北京安贞医院让医疗大模型走出聊天框

西门子肖松：以场景为牵引，推动工业AI从单点实效迈向生产力跃迁

打造Token极致性价比 新华三震撼亮相2026世界人工智能大会

机器人管家系统上线！傅利叶携多款康养陪伴新品方案亮相WAIC 2026

赛那德“ 自主作业机器人天团” 登陆 WAIC：iLoabot-X+模型双升级，秀出具身场景落地硬实力

西门子Eigen工程智能体中国首发首展，荣获2026 WAIC SAIL之星奖

NVIDIA Cosmos 推动物理 AI 前沿发展

PPIO亮相WAIC 2026：发布智能模型网关，打造面向Agent时代的智能Token工厂

经济奇点时代即将到来的五大认知误区

避开这11个ChatGPT陷阱：AI大语言模型使用禁区指南

医疗AI规模化部署的新标准：AI评估与KPI体系为何不可或缺

哈佛研究中心探讨人类智能与AI计算智能是否本质相同

AI倡议推动CIO与CEO关系更加紧密

AEO可能是AI领域最危险的缩写词

英国Nscale在AI数据中心热潮中融资11亿美元

智能体AI如何填补心理健康护理的关键空白

Spotify收紧AI政策并大幅削减音乐库存

Meta AI推出基于创作者AI视频的全新"Vibes"信息流

如果您非常迫切的想了解IT领域最新产品与技术信息，那么订阅至顶网技术邮件将是您的最佳途径之一

三一集团：数字化是必选项，AI是生存项

因湃电池 × 达索系统：如何共创出一套电池产业最佳实践

AI走进真实世界之后：安全、健康与产业的新命题

CES 2026

关注官方公众号

关注官方微博

关注官方喜马拉雅

友情链接

业界热点:

打造Token极致性价比新华三震撼亮相2026世界人工智能大会