虽然AI实体本身可能存在重大的黑盒问题,但我们至少能够以一定程度的准确性测量它们对生产力的影响。那么,为什么研究人员发现,在实践中,使用AI工具反而会拖慢从事各种开源项目的开发者,而不是加速他们的工作?AI不是应该以效率为原则吗?
最近,科技媒体热议一个名为METR的组织披露的这些奇怪发现。这些发现来自一项随机对照试验(RCT),旨在弄清楚AI工具如何"影响在自己代码库上工作的经验丰富的开源开发者的生产力"。
研究团队没有发现他们预期的结果。
"令人惊讶的是,我们发现当开发者使用AI工具时,他们比不使用时多花费19%的时间,"METR人员简洁地写道。"AI让他们变慢了。"
研究机制解析
文档显示了这项研究是如何进行的。METR找到了16名经验丰富的开发者,他们编制了通常会处理的问题和任务清单——处理错误、添加功能和重构代码。使用工具的开发者可以选择工具,通常使用配备Claude 3.5/3.7 Sonnet的Cursor Pro,或者独立完成平均耗时两小时的任务。
无论是否使用工具,评估流程都保持一致:实现问题、开启拉取请求、处理审查、合并拉取请求、报告时间。
开发者还分享了更多详细信息,这些可以在METR在线发布的项目评论中找到。
效率下降原因分析
AI工具为何拖慢开发者这个问题值得深入考虑,其中存在一些缓解因素。METR作者这样解释这种差异:
"虽然编程/智能体基准测试对理解AI能力很有用,但它们通常为了规模和效率而牺牲现实性——任务是自包含的,不需要先前的上下文来理解,并使用算法评估,无法捕捉许多重要能力。这些特性可能导致基准测试高估AI能力。另一方面,由于基准测试在没有实时人机交互的情况下运行,模型可能无法完成任务,尽管取得了实质性进展,因为一些小瓶颈在实际使用中人类会修复。"
换句话说,人类可以修复对他们来说直观的问题,而机器无法轻易掌握。这让我想起大语言模型不理解物理学——它们可以渲染各种物体并将其放入视频中,但不会自动理解这些物体在实时中如何移动。我们人类会。这部分是因为我们一次又一次地看到鸟类、飞盘或其他东西在风中飘荡。是我们的累积经验给我们带来了运动知识,而不是书本。这同样适用于代码——在那些我们直觉理解的"常识"问题上,模型往往表现不足。
此外,作者还指出了一些免责声明。其中之一是他们承认,如果开发者使用这些工具的时间更长,克服学习曲线的成果可能会显现,或者隐藏的效率可能会浮现。
"我们的随机对照试验结果在可以从模型中采样数百或数千条轨迹的环境中相关性较低,而我们的开发者通常不会尝试这样做,"他们写道。"也可能存在像Cursor这样的AI工具的强学习效应,只有在使用几百小时后才会出现——我们的开发者通常在研究前和研究期间只使用Cursor几十小时。"
无论如何,这些发现说明了技术专业人士长期以来就知道的一个原则,这个原则在大数据时代和云时代都成立:技术可以帮助或阻碍劳动力,这取决于它与所应用流程的匹配程度。看起来早期智能体工具也是如此。
METR组织背景
那么这个组织是从哪里来的?
粗略了解发现,METR由Beth Barnes创立,她曾是OpenAI的对齐研究员。在这种情况下,对齐意味着确保AI做它应该做的好事,而不会偏离到危险领域。Barnes于2022年以ARC Evals的名义创立了METR,并于2023年底从对齐研究中心(ARC)分离出来,成为一个独立的非营利组织。至于对齐研究中心(ARC)本身,这个非营利研究组织显然是由Paul Christiano于2021年创立的,他之前也在OpenAI的对齐团队。
组织架构可能有点复杂,但看起来METR准备为我们带来更多这类有用的研究,因为AI社区持续发现更多关于大语言模型能力的信息。这不是一个小行业,在商业应用方面也不是小事。AI威胁(或承诺)要彻底改革几乎所有行业的几乎所有业务流程,因此继续关注技术前沿的发现是值得的。
Q&A
Q1:METR是什么组织?它进行了什么研究?
A:METR是一个AI安全研究组织,由前OpenAI对齐研究员Beth Barnes创立。该组织进行了一项随机对照试验,研究AI工具对经验丰富的开源开发者生产力的影响,发现使用AI工具的开发者比不使用时多花费19%的时间。
Q2:为什么AI工具会拖慢开发者的工作效率?
A:主要原因是AI工具缺乏人类的常识理解能力。基准测试往往高估AI能力,而在实际工作中,人类可以直觉地修复一些机器无法轻易掌握的问题。此外,开发者可能需要更长的学习曲线才能有效使用这些工具。
Q3:这项研究结果对AI工具的未来发展有什么启示?
A:研究表明技术工具能否提高效率取决于它与应用流程的匹配程度。对于早期智能体工具,可能需要更长时间的使用和学习才能体现效率提升,同时需要在更现实的使用场景中进行更深入的研究和优化。
好文章,需要你的鼓励
TELUS与NVIDIA和HPE合作,在魁北克省里穆斯基市推出加拿大首个完全主权AI工厂。该设施运行在加拿大本土基础设施上,让企业能够在不跨境的情况下开发、训练和运营AI模型。设施采用可再生能源,具备高效冷却系统。这一举措呼应了全球主权AI发展趋势,旨在确保加拿大在敏感数据处理方面的自主权,为医疗和金融等行业提供符合数据驻留要求的AI解决方案。
伊利诺伊大学等机构研究团队通过大规模实验发现了推荐系统中两种全新现象:双峰现象(性能先升后降再升再降)和对数现象(持续稳定提升)。研究揭示数据噪声是影响推荐系统可扩展性的关键因素,并发现SGL模型因其独特的抗噪机制表现最佳。该发现颠覆了传统认知,为推荐系统优化提供新思路,在某些情况下仅通过增加嵌入维度就能获得25%以上的性能提升。
Moonlock发布的2025年Mac安全调查显示,Mac用户对恶意软件的认知正在发生重要转变。仅15%的受访者认为macOS免疫恶意软件,较2023年的28%大幅下降。66%的Mac用户在过去一年中至少遭遇过一次网络威胁。调查还发现,72%的用户担心人工智能助长网络威胁,46%认为需要额外安全软件保护。
浦项科技大学研究团队发现当前AI模型缺乏音频推理能力,仅凭文字描述无法判断声音属性。他们构建了AuditoryBench++测试平台,涵盖音调、音量比较等5类任务,发现主流AI模型表现接近随机猜测。研究团队提出AIR-CoT方法,通过两阶段训练让AI学会"想象"声音:先识别需要音频推理的文本片段,再调用音频知识模块生成声音特征。实验显示该方法显著提升了AI的音频推理能力。