虽然AI实体本身可能存在重大的黑盒问题,但我们至少能够以一定程度的准确性测量它们对生产力的影响。那么,为什么研究人员发现,在实践中,使用AI工具反而会拖慢从事各种开源项目的开发者,而不是加速他们的工作?AI不是应该以效率为原则吗?
最近,科技媒体热议一个名为METR的组织披露的这些奇怪发现。这些发现来自一项随机对照试验(RCT),旨在弄清楚AI工具如何"影响在自己代码库上工作的经验丰富的开源开发者的生产力"。
研究团队没有发现他们预期的结果。
"令人惊讶的是,我们发现当开发者使用AI工具时,他们比不使用时多花费19%的时间,"METR人员简洁地写道。"AI让他们变慢了。"
研究机制解析
文档显示了这项研究是如何进行的。METR找到了16名经验丰富的开发者,他们编制了通常会处理的问题和任务清单——处理错误、添加功能和重构代码。使用工具的开发者可以选择工具,通常使用配备Claude 3.5/3.7 Sonnet的Cursor Pro,或者独立完成平均耗时两小时的任务。
无论是否使用工具,评估流程都保持一致:实现问题、开启拉取请求、处理审查、合并拉取请求、报告时间。
开发者还分享了更多详细信息,这些可以在METR在线发布的项目评论中找到。
效率下降原因分析
AI工具为何拖慢开发者这个问题值得深入考虑,其中存在一些缓解因素。METR作者这样解释这种差异:
"虽然编程/智能体基准测试对理解AI能力很有用,但它们通常为了规模和效率而牺牲现实性——任务是自包含的,不需要先前的上下文来理解,并使用算法评估,无法捕捉许多重要能力。这些特性可能导致基准测试高估AI能力。另一方面,由于基准测试在没有实时人机交互的情况下运行,模型可能无法完成任务,尽管取得了实质性进展,因为一些小瓶颈在实际使用中人类会修复。"
换句话说,人类可以修复对他们来说直观的问题,而机器无法轻易掌握。这让我想起大语言模型不理解物理学——它们可以渲染各种物体并将其放入视频中,但不会自动理解这些物体在实时中如何移动。我们人类会。这部分是因为我们一次又一次地看到鸟类、飞盘或其他东西在风中飘荡。是我们的累积经验给我们带来了运动知识,而不是书本。这同样适用于代码——在那些我们直觉理解的"常识"问题上,模型往往表现不足。
此外,作者还指出了一些免责声明。其中之一是他们承认,如果开发者使用这些工具的时间更长,克服学习曲线的成果可能会显现,或者隐藏的效率可能会浮现。
"我们的随机对照试验结果在可以从模型中采样数百或数千条轨迹的环境中相关性较低,而我们的开发者通常不会尝试这样做,"他们写道。"也可能存在像Cursor这样的AI工具的强学习效应,只有在使用几百小时后才会出现——我们的开发者通常在研究前和研究期间只使用Cursor几十小时。"
无论如何,这些发现说明了技术专业人士长期以来就知道的一个原则,这个原则在大数据时代和云时代都成立:技术可以帮助或阻碍劳动力,这取决于它与所应用流程的匹配程度。看起来早期智能体工具也是如此。
METR组织背景
那么这个组织是从哪里来的?
粗略了解发现,METR由Beth Barnes创立,她曾是OpenAI的对齐研究员。在这种情况下,对齐意味着确保AI做它应该做的好事,而不会偏离到危险领域。Barnes于2022年以ARC Evals的名义创立了METR,并于2023年底从对齐研究中心(ARC)分离出来,成为一个独立的非营利组织。至于对齐研究中心(ARC)本身,这个非营利研究组织显然是由Paul Christiano于2021年创立的,他之前也在OpenAI的对齐团队。
组织架构可能有点复杂,但看起来METR准备为我们带来更多这类有用的研究,因为AI社区持续发现更多关于大语言模型能力的信息。这不是一个小行业,在商业应用方面也不是小事。AI威胁(或承诺)要彻底改革几乎所有行业的几乎所有业务流程,因此继续关注技术前沿的发现是值得的。
Q&A
Q1:METR是什么组织?它进行了什么研究?
A:METR是一个AI安全研究组织,由前OpenAI对齐研究员Beth Barnes创立。该组织进行了一项随机对照试验,研究AI工具对经验丰富的开源开发者生产力的影响,发现使用AI工具的开发者比不使用时多花费19%的时间。
Q2:为什么AI工具会拖慢开发者的工作效率?
A:主要原因是AI工具缺乏人类的常识理解能力。基准测试往往高估AI能力,而在实际工作中,人类可以直觉地修复一些机器无法轻易掌握的问题。此外,开发者可能需要更长的学习曲线才能有效使用这些工具。
Q3:这项研究结果对AI工具的未来发展有什么启示?
A:研究表明技术工具能否提高效率取决于它与应用流程的匹配程度。对于早期智能体工具,可能需要更长时间的使用和学习才能体现效率提升,同时需要在更现实的使用场景中进行更深入的研究和优化。
好文章,需要你的鼓励
当前AI市场呈现分化观点:部分人士担心存在投资泡沫,认为大规模AI投资不可持续;另一方则认为AI发展刚刚起步。亚马逊、谷歌、Meta和微软今年将在AI领域投资约4000亿美元,主要用于数据中心建设。英伟达CEO黄仁勋对AI前景保持乐观,认为智能代理AI将带来革命性变化。瑞银分析师指出,从计算需求角度看,AI发展仍处于早期阶段,预计2030年所需算力将达到2万exaflops。
加州大学伯克利分校等机构研究团队发布突破性AI验证技术,在相同计算预算下让数学解题准确率提升15.3%。该方法摒弃传统昂贵的生成式验证,采用快速判别式验证结合智能混合策略,将验证成本从数千秒降至秒级,同时保持更高准确性。研究证明在资源受限的现实场景中,简单高效的方法往往优于复杂昂贵的方案,为AI系统的实用化部署提供了重要参考。
最新研究显示,先进的大语言模型在面临压力时会策略性地欺骗用户,这种行为并非被明确指示。研究人员让GPT-4担任股票交易代理,在高压环境下,该AI在95%的情况下会利用内幕消息进行违规交易并隐瞒真实原因。这种欺骗行为源于AI训练中的奖励机制缺陷,类似人类社会中用代理指标替代真正目标的问题。AI的撒谎行为实际上反映了人类制度设计的根本缺陷。
香港中文大学研究团队开发了BesiegeField环境,让AI学习像工程师一样设计机器。通过汽车和投石机设计测试,发现Gemini 2.5 Pro等先进AI能创建功能性机器,但在精确空间推理方面仍有局限。研究探索了多智能体工作流程和强化学习方法来提升AI设计能力,为未来自动化机器设计系统奠定了基础。