研究发现AI工具让开源软件开发者效率降低19%

METR研究机构的随机对照试验显示，经验丰富的开源代码开发者在使用AI工具时效率实际下降。研究跟踪16名开发者完成246项任务，发现尽管开发者预期AI能提升24%效率，实际却慢了19%。AI虽减少了编码时间，但审查AI输出、提示AI系统和等待生成的时间更长。开发者仅接受44%的AI生成代码而无需修改。

当谈到大语言模型的具体应用案例时，AI公司喜欢指出编码人员和软件开发者可以如何使用这些模型来提高他们在编写计算机代码时的生产力和整体效率。然而，一项新的随机对照试验发现，有经验的开源编码人员在使用当前的AI工具时，在编码相关任务上的效率实际上有所降低。

在这项研究中，METR（模型评估与威胁研究）的研究人员招募了16名软件开发者，每个人都有多年在特定开源代码库工作的经验。研究跟踪了这些开发者完成的246个与维护这些代码库相关的单独"任务"，例如"错误修复、功能开发和重构，这些通常是他们日常工作的一部分"。在这些任务中，有一半开发者使用了Cursor Pro或Anthropic的Claude等AI工具；在其他任务中，程序员被指示不使用AI辅助。每个任务的预期时间预测（在分组分配之前制定）被用作平衡每个实验组任务整体难度的代理指标，基于审查者反馈修复拉取请求所需的时间也被纳入了整体评估中。

专家和开发者本身都预期会节省时间，但当实际使用AI工具时，这种时间节省并没有实现。

在进行研究之前，参与的开发者预期AI工具会使他们完成分配任务所需的时间减少24%。即使在完成这些任务后，开发者仍然认为AI工具平均让他们提高了20%的速度。然而，实际上，AI辅助的任务最终比没有使用AI工具完成的任务慢了19%。

权衡取舍

通过分析部分研究开发者的屏幕录制数据，METR研究人员发现，AI工具往往能够减少这些开发者在积极编码、测试/调试或"阅读/搜索信息"方面花费的平均时间。但这些时间节省最终被"审查AI输出、提示AI系统和等待AI生成"以及"闲置/开销时间"（屏幕录制显示无活动）所压倒。

总体而言，研究中的开发者接受AI生成的代码而无需修改的比例不到44%。大多数开发者报告需要对其AI伴侣生成的代码进行更改，在研究的"AI辅助"部分中，总计9%的任务时间用于这种审查。

在积极编码等方面节省的时间被提示、等待和审查AI输出所需的时间所压倒。

从表面上看，METR的结果似乎与其他展示使用AI工具时编码效率提高的基准测试和实验相矛盾。但这些测试通常也以代码总行数或完成的离散任务/代码提交/拉取请求数量来衡量生产力，这些都可能是实际编码效率的不良代理指标。

许多现有的编码基准测试还专注于专门为基准测试创建的合成、算法可评分任务，这使得很难将这些结果与专注于预先存在的真实世界代码库工作的结果进行比较。沿着这些思路，METR研究中的开发者在调查中报告说，他们工作的代码库的整体复杂性（平均年龄10年，超过100万行代码）限制了AI的帮助程度。研究人员指出，AI无法利用关于代码库的"重要隐性知识或上下文"，而"开发者对代码库的高度熟悉"有助于他们在这些任务中非常人性化的编码效率。

这些因素使研究人员得出结论，当前的AI编码工具可能特别不适合"具有非常高质量标准的设置，或具有许多隐含要求（例如，与文档、测试覆盖率或代码检查/格式化相关）的设置，这些要求需要人类花费大量时间来学习"。虽然这些因素可能不适用于涉及更简单代码库的"许多现实的、经济相关的设置"，但它们可能会限制AI工具在本研究和类似现实世界情况中的影响。

即使对于像研究中的复杂编码项目，研究人员也乐观地认为AI工具的进一步完善可能会为程序员带来未来的效率提升。具有更好可靠性、更低延迟或更相关输出（通过提示脚手架或微调等技术）的系统"可以在我们的设置中加快开发者的速度"，研究人员写道。他们说，已经有"初步证据"表明最近发布的Claude 3.7"通常可以正确实现我们研究中包含的几个代码库中问题的核心功能"。

然而，目前METR的研究提供了一些强有力的证据，表明AI在编码任务中备受推崇的实用性在某些复杂的现实世界编码场景中可能存在重大限制。

来源：Arstechnica

0赞

好文章，需要你的鼓励

研究发现AI工具让开源软件开发者效率降低19%

来源：Arstechnica

2025

07/15

09:32

分享

点赞

数智时代，openGauss Summit 2025即将发布哪些技术创新破局

“算力+储能”深度融合：超智算发布分布式算力超级节点储能解决方案

联想推出DE6600系列：更智能的存储解决方案

创业公司如何在严格监管行业中实现生死攸关的创新

OpenAI发布GPT-5.2-Codex模型，软件工程自动化能力大幅提升

Waterfox浏览器宣布拒绝AI功能，瞄准Firefox忠实用户

TikTok美国业务出售交易将于下月完成

破局AI数据中心安全瓶颈：Fortinet联合NVIDIA引领隔离式加速新航向

智算中心进化论，科华数据如何做到“更懂”

更高负载、更快建设：2026年数据中心六大趋势

Snowflake数据库更新引发全球大规模服务中断

AI编程初创公司Lovable融资3.3亿美元，英伟达等科技巨头支持

AWS发布Kiro：集成AI智能体的"规格化编程"开发环境

AI智能体验证：2025年关键技术产业的崛起

数据中心电力消耗与供应挑战：AI时代的能源瓶颈

IT领域十大过度炒作的技术

2025年企业网络安全指南：构建数字时代防护体系

AWS Bedrock负责人Atul Deo：更便宜AI与新型智能体的未来之路

月之暗面Kimi K2在关键基准测试中超越GPT-4——且完全免费

Meta与OpenAI人才争夺战：AI造就精英但冲击其他群体

打造能倾听所有人的语音AI：迁移学习与合成语音的实践应用

2040年实现AGI的S型曲线发展路径预测分析

如果您非常迫切的想了解IT领域最新产品与技术信息，那么订阅至顶网技术邮件将是您的最佳途径之一

2025 re:Invent ：亚马逊云科技把Agentic AI生态梳理明白了

电子竞技瞬息万变，Team Liquid的“数据+AI”制胜秘籍

中国移动呼和浩特数据中心：只有高效存力先行，AI才能跑出全力

从“支撑工具”到“智能中枢”，AI原生ERP进化

关注官方公众号

关注官方微博

关注官方喜马拉雅

友情链接

业界热点: