管理学中有句老话:你衡量什么,就会得到什么。而你选择测量的指标,往往决定了团队努力的方向。
软件工程师关于生产力指标的争论已持续数十年,从最初的代码行数开始。如今,新一代AI编程智能体能够产出比以往更多的代码,但管理者究竟该如何衡量生产力,却变得愈发模糊。
在硅谷开发者圈子里,巨大的Token预算——即开发者被授权使用的AI算力额度——已成为一种身份象征。但这其实是一种非常奇怪的生产力衡量方式。用流程的"投入量"来衡量效率,本身就缺乏逻辑——人们真正关心的应该是"产出"。这种做法或许适合用来鼓励AI工具的普及(或者销售Token),但绝非提升效率的正确思路。
来自"开发者生产力洞察"这一新兴赛道的数据,正在揭示一个值得警惕的现象。这些公司发现,使用Claude Code、Cursor、Codex等工具的开发者,确实比以往生成了更多被接受的代码。但与此同时,工程师们不得不频繁返工修改这些代码,这在很大程度上抵消了所谓的生产力提升。
Waydev的CEO兼创始人Alex Circei正在构建一套智能分析层,专门追踪上述动态。他的公司服务于50家客户,这些客户共计雇用了超过1万名软件工程师。他表示,工程管理者看到的代码接受率高达80%至90%——即开发者审核并保留的AI生成代码比例——但他们忽略了一个关键问题:工程师在接下来数周内不得不反复修改这些代码,导致实际有效接受率下滑至生成代码总量的10%至30%。
Waydev成立于2017年,最初专注于开发者分析。随着AI编程工具的兴起,该公司在过去六个月内对平台进行了全面重构,以应对快速编程工具的大规模普及。目前,Waydev正在推出新工具,专门追踪AI智能体生成的元数据,并提供代码质量与成本分析,帮助工程管理者更清晰地了解AI的采用情况与实际效能。
尽管分析公司有动机放大其发现的问题,但越来越多的证据表明,大型企业仍在摸索如何高效使用AI工具。各大公司已经注意到这一趋势——Atlassian去年以10亿美元收购了工程智能初创公司DX,目的正是帮助客户衡量编程智能体的投资回报。
来自整个行业的数据呈现出一致的规律:代码产出量在增加,但其中相当大比例并未真正留存下来。
另一家同类公司GitClear在今年1月发布报告指出,AI工具确实提升了生产力,但数据同样显示,"AI重度用户的代码改动率平均是非AI用户的9.4倍",远超AI工具带来的生产力增益的两倍以上。
工程分析平台Faros AI在其2026年3月的报告中,汇集了两年的客户数据。结论显示:在高度采用AI的团队中,代码改动率(即删除代码行数与新增代码行数之比)上升了861%。
自我定位为"AI集成工程智能平台"的Jellyfish,在2026年第一季度收集了7548名工程师的数据。研究发现,Token预算最高的工程师产出的拉取请求(即向共享代码库提交的变更)数量最多,但生产力的提升并不成比例——他们以十倍的Token成本,仅实现了两倍的吞吐量。换言之,这些工具在制造数量,而非创造价值。
与开发者交流时,这些数据所反映的现象引发了广泛共鸣。即便他们享受着新工具带来的开发自由,代码审查工作量和技术债务却在持续积累。一个普遍规律是:初级工程师与高级工程师之间存在明显差异,前者倾向于接受更多AI生成的代码,因此也面临更大量的返工压力。
尽管如此,即便开发者们仍在努力弄清楚自己的智能体究竟在做什么,他们也并不打算就此回头。
"这是软件开发的新时代,你必须适应,作为一家公司你也被迫去适应,"Circei向TechCrunch表示,"这不是一个会过去的周期。"
Q&A
Q1:什么是代码改动率?为什么它是衡量AI编程效率的关键指标?
A:代码改动率是指代码被删除的行数与新增行数之间的比值,用于衡量代码被修改或推翻的频率。在AI编程工具广泛使用的背景下,它成为关键指标,是因为开发者虽然接受了大量AI生成的代码,但随后不得不频繁返工修改。数据显示,在高度采用AI的团队中,代码改动率上升了861%,说明AI产出的代码质量存在明显问题,仅看代码接受率会严重高估实际生产力提升。
Q2:Token预算越高,开发者的生产力就越强吗?
A:并非如此。Jellyfish的数据显示,Token预算最高的工程师虽然产出了最多的拉取请求,但生产力提升并不成比例——他们消耗了十倍的Token成本,却只实现了两倍的吞吐量。这说明大量Token消耗带来的是代码"数量"的增加,而非"质量"或"价值"的提升。以Token预算作为生产力的衡量标准,实际上是在用流程投入替代真正的产出指标。
Q3:初级工程师和高级工程师在使用AI编程工具时有什么差异?
A:数据显示,初级工程师更倾向于接受AI生成的代码,接受比例明显高于高级工程师。然而,由于对代码质量的判断经验不足,他们也因此面临更大量的后续返工和修改工作。相比之下,高级工程师在审核AI生成代码时更为审慎,接受率较低,但代码的实际留存质量更高,技术债务积累也相对更少。
好文章,需要你的鼓励
企业AI搜索公司Glean宣布年度经常性收入(ARR)达3亿美元,较15个月前的1亿美元增长三倍。尽管谷歌、微软、OpenAI等科技巨头纷纷入局企业AI搜索市场,Glean凭借"上下文图谱"技术深度理解企业业务需求,并帮助客户显著降低AI计算成本。该公司提供按用量计费和混合定价两种模式,客户涵盖Databricks、Reddit、Pinterest及三星等企业。Glean上轮融资后估值达72亿美元。
香港中文大学与MiniMax提出ClaimDiff-RL框架,将图像描述的AI训练从整体打分升级为逐条核查,有效解决了传统方式导致AI"少说保平安"的问题,同时在多项基准测试上超越Gemini-3-Pro-Preview。
杰夫·贝索斯旗下的蓝色起源公司在佛罗里达卡纳维拉尔角进行静态点火测试时,新格伦重型火箭发生爆炸。这是美国历史上最大规模的火箭爆炸之一,也是蓝色起源公司遭遇的最严重失败。所有人员安全,但该事故可能导致新格伦火箭项目长期暂停。此前该火箭已成功完成三次发射,并实现了助推器回收和重复使用。
ParaVT是一个由南洋理工等多校联合提出的并行视频工具调用框架,通过让AI同时分析多段视频并引入PARA-GRPO算法解决训练中的格式崩溃与工具跳过问题,在六项长视频理解测试中平均提升约7.9%。