"Token消耗竞赛"正让开发者的生产力大打折扣

硅谷开发者将巨额Token预算视为荣耀,但多家开发者效能分析公司的数据显示,这种思维存在严重误区。AI编程工具虽将代码接受率提升至80%至90%,但后续代码返工率极高,实际有效接受率仅为10%至30%。GitClear、Faros AI、Jellyfish等机构的研究均表明,AI工具带来的是代码数量的激增而非质量提升,代码搅动率最高上涨861%。工程师们在享受AI编程自由的同时,也面临代码审查与技术债务持续堆积的问题。

管理学中有句老话:你衡量什么,就会得到什么。而你选择测量的指标,往往决定了团队努力的方向。

软件工程师关于生产力指标的争论已持续数十年,从最初的代码行数开始。如今,新一代AI编程智能体能够产出比以往更多的代码,但管理者究竟该如何衡量生产力,却变得愈发模糊。

在硅谷开发者圈子里,巨大的Token预算——即开发者被授权使用的AI算力额度——已成为一种身份象征。但这其实是一种非常奇怪的生产力衡量方式。用流程的"投入量"来衡量效率,本身就缺乏逻辑——人们真正关心的应该是"产出"。这种做法或许适合用来鼓励AI工具的普及(或者销售Token),但绝非提升效率的正确思路。

来自"开发者生产力洞察"这一新兴赛道的数据,正在揭示一个值得警惕的现象。这些公司发现,使用Claude Code、Cursor、Codex等工具的开发者,确实比以往生成了更多被接受的代码。但与此同时,工程师们不得不频繁返工修改这些代码,这在很大程度上抵消了所谓的生产力提升。

Waydev的CEO兼创始人Alex Circei正在构建一套智能分析层,专门追踪上述动态。他的公司服务于50家客户,这些客户共计雇用了超过1万名软件工程师。他表示,工程管理者看到的代码接受率高达80%至90%——即开发者审核并保留的AI生成代码比例——但他们忽略了一个关键问题:工程师在接下来数周内不得不反复修改这些代码,导致实际有效接受率下滑至生成代码总量的10%至30%。

Waydev成立于2017年,最初专注于开发者分析。随着AI编程工具的兴起,该公司在过去六个月内对平台进行了全面重构,以应对快速编程工具的大规模普及。目前,Waydev正在推出新工具,专门追踪AI智能体生成的元数据,并提供代码质量与成本分析,帮助工程管理者更清晰地了解AI的采用情况与实际效能。

尽管分析公司有动机放大其发现的问题,但越来越多的证据表明,大型企业仍在摸索如何高效使用AI工具。各大公司已经注意到这一趋势——Atlassian去年以10亿美元收购了工程智能初创公司DX,目的正是帮助客户衡量编程智能体的投资回报。

来自整个行业的数据呈现出一致的规律:代码产出量在增加,但其中相当大比例并未真正留存下来。

另一家同类公司GitClear在今年1月发布报告指出,AI工具确实提升了生产力,但数据同样显示,"AI重度用户的代码改动率平均是非AI用户的9.4倍",远超AI工具带来的生产力增益的两倍以上。

工程分析平台Faros AI在其2026年3月的报告中,汇集了两年的客户数据。结论显示:在高度采用AI的团队中,代码改动率(即删除代码行数与新增代码行数之比)上升了861%。

自我定位为"AI集成工程智能平台"的Jellyfish,在2026年第一季度收集了7548名工程师的数据。研究发现,Token预算最高的工程师产出的拉取请求(即向共享代码库提交的变更)数量最多,但生产力的提升并不成比例——他们以十倍的Token成本,仅实现了两倍的吞吐量。换言之,这些工具在制造数量,而非创造价值。

与开发者交流时,这些数据所反映的现象引发了广泛共鸣。即便他们享受着新工具带来的开发自由,代码审查工作量和技术债务却在持续积累。一个普遍规律是:初级工程师与高级工程师之间存在明显差异,前者倾向于接受更多AI生成的代码,因此也面临更大量的返工压力。

尽管如此,即便开发者们仍在努力弄清楚自己的智能体究竟在做什么,他们也并不打算就此回头。

"这是软件开发的新时代,你必须适应,作为一家公司你也被迫去适应,"Circei向TechCrunch表示,"这不是一个会过去的周期。"

Q&A

Q1:什么是代码改动率?为什么它是衡量AI编程效率的关键指标?

A:代码改动率是指代码被删除的行数与新增行数之间的比值,用于衡量代码被修改或推翻的频率。在AI编程工具广泛使用的背景下,它成为关键指标,是因为开发者虽然接受了大量AI生成的代码,但随后不得不频繁返工修改。数据显示,在高度采用AI的团队中,代码改动率上升了861%,说明AI产出的代码质量存在明显问题,仅看代码接受率会严重高估实际生产力提升。

Q2:Token预算越高,开发者的生产力就越强吗?

A:并非如此。Jellyfish的数据显示,Token预算最高的工程师虽然产出了最多的拉取请求,但生产力提升并不成比例——他们消耗了十倍的Token成本,却只实现了两倍的吞吐量。这说明大量Token消耗带来的是代码"数量"的增加,而非"质量"或"价值"的提升。以Token预算作为生产力的衡量标准,实际上是在用流程投入替代真正的产出指标。

Q3:初级工程师和高级工程师在使用AI编程工具时有什么差异?

A:数据显示,初级工程师更倾向于接受AI生成的代码,接受比例明显高于高级工程师。然而,由于对代码质量的判断经验不足,他们也因此面临更大量的后续返工和修改工作。相比之下,高级工程师在审核AI生成代码时更为审慎,接受率较低,但代码的实际留存质量更高,技术债务积累也相对更少。

来源:Techcrunch

0赞

好文章,需要你的鼓励

2026

04/20

10:48

分享

点赞

邮件订阅