管理学中有句老话:你衡量什么,就会得到什么。而你选择测量的指标,往往决定了团队努力的方向。
软件工程师关于生产力指标的争论已持续数十年,从最初的代码行数开始。如今,新一代AI编程智能体能够产出比以往更多的代码,但管理者究竟该如何衡量生产力,却变得愈发模糊。
在硅谷开发者圈子里,巨大的Token预算——即开发者被授权使用的AI算力额度——已成为一种身份象征。但这其实是一种非常奇怪的生产力衡量方式。用流程的"投入量"来衡量效率,本身就缺乏逻辑——人们真正关心的应该是"产出"。这种做法或许适合用来鼓励AI工具的普及(或者销售Token),但绝非提升效率的正确思路。
来自"开发者生产力洞察"这一新兴赛道的数据,正在揭示一个值得警惕的现象。这些公司发现,使用Claude Code、Cursor、Codex等工具的开发者,确实比以往生成了更多被接受的代码。但与此同时,工程师们不得不频繁返工修改这些代码,这在很大程度上抵消了所谓的生产力提升。
Waydev的CEO兼创始人Alex Circei正在构建一套智能分析层,专门追踪上述动态。他的公司服务于50家客户,这些客户共计雇用了超过1万名软件工程师。他表示,工程管理者看到的代码接受率高达80%至90%——即开发者审核并保留的AI生成代码比例——但他们忽略了一个关键问题:工程师在接下来数周内不得不反复修改这些代码,导致实际有效接受率下滑至生成代码总量的10%至30%。
Waydev成立于2017年,最初专注于开发者分析。随着AI编程工具的兴起,该公司在过去六个月内对平台进行了全面重构,以应对快速编程工具的大规模普及。目前,Waydev正在推出新工具,专门追踪AI智能体生成的元数据,并提供代码质量与成本分析,帮助工程管理者更清晰地了解AI的采用情况与实际效能。
尽管分析公司有动机放大其发现的问题,但越来越多的证据表明,大型企业仍在摸索如何高效使用AI工具。各大公司已经注意到这一趋势——Atlassian去年以10亿美元收购了工程智能初创公司DX,目的正是帮助客户衡量编程智能体的投资回报。
来自整个行业的数据呈现出一致的规律:代码产出量在增加,但其中相当大比例并未真正留存下来。
另一家同类公司GitClear在今年1月发布报告指出,AI工具确实提升了生产力,但数据同样显示,"AI重度用户的代码改动率平均是非AI用户的9.4倍",远超AI工具带来的生产力增益的两倍以上。
工程分析平台Faros AI在其2026年3月的报告中,汇集了两年的客户数据。结论显示:在高度采用AI的团队中,代码改动率(即删除代码行数与新增代码行数之比)上升了861%。
自我定位为"AI集成工程智能平台"的Jellyfish,在2026年第一季度收集了7548名工程师的数据。研究发现,Token预算最高的工程师产出的拉取请求(即向共享代码库提交的变更)数量最多,但生产力的提升并不成比例——他们以十倍的Token成本,仅实现了两倍的吞吐量。换言之,这些工具在制造数量,而非创造价值。
与开发者交流时,这些数据所反映的现象引发了广泛共鸣。即便他们享受着新工具带来的开发自由,代码审查工作量和技术债务却在持续积累。一个普遍规律是:初级工程师与高级工程师之间存在明显差异,前者倾向于接受更多AI生成的代码,因此也面临更大量的返工压力。
尽管如此,即便开发者们仍在努力弄清楚自己的智能体究竟在做什么,他们也并不打算就此回头。
"这是软件开发的新时代,你必须适应,作为一家公司你也被迫去适应,"Circei向TechCrunch表示,"这不是一个会过去的周期。"
Q&A
Q1:什么是代码改动率?为什么它是衡量AI编程效率的关键指标?
A:代码改动率是指代码被删除的行数与新增行数之间的比值,用于衡量代码被修改或推翻的频率。在AI编程工具广泛使用的背景下,它成为关键指标,是因为开发者虽然接受了大量AI生成的代码,但随后不得不频繁返工修改。数据显示,在高度采用AI的团队中,代码改动率上升了861%,说明AI产出的代码质量存在明显问题,仅看代码接受率会严重高估实际生产力提升。
Q2:Token预算越高,开发者的生产力就越强吗?
A:并非如此。Jellyfish的数据显示,Token预算最高的工程师虽然产出了最多的拉取请求,但生产力提升并不成比例——他们消耗了十倍的Token成本,却只实现了两倍的吞吐量。这说明大量Token消耗带来的是代码"数量"的增加,而非"质量"或"价值"的提升。以Token预算作为生产力的衡量标准,实际上是在用流程投入替代真正的产出指标。
Q3:初级工程师和高级工程师在使用AI编程工具时有什么差异?
A:数据显示,初级工程师更倾向于接受AI生成的代码,接受比例明显高于高级工程师。然而,由于对代码质量的判断经验不足,他们也因此面临更大量的后续返工和修改工作。相比之下,高级工程师在审核AI生成代码时更为审慎,接受率较低,但代码的实际留存质量更高,技术债务积累也相对更少。
好文章,需要你的鼓励
美国连锁超市巨头Albertsons正在基于Databricks构建商品智能平台,整合产品、定价、促销与陈列等决策功能,目标是在2026年底前全面向门店运营商落地。该平台以Databricks Lakehouse存储零售数据,通过Unity Catalog与AI Gateway实现数据治理,并借助AI智能体Genie支持自然语言查询,帮助商家洞察销售趋势,提升决策效率。此举是Albertsons今年四项AI核心战略投资之一。
阿里Qwen团队通过引入强化学习和在线策略蒸馏,将Qwen-Image-2.0升级为Qwen-Image-2.0-RL,让图像生成模型真正学会人类审美,文生图Elo评分提升78分,图像编辑提升93分。
微软正将Windows 11打造成真正的AI操作系统。在Build大会上,微软展示了AI模型与智能代理如何深度融合进Windows 11,让用户通过自然语言完成系统操作。借助Windows ML框架,超过5亿台PC已可在本地离线运行AI任务,无需联网、无token费用、数据不离设备。Office、Photos、Teams等应用已支持本地AI能力,Adobe、WhatsApp、Canva等第三方也在积极跟进,企业级AI PC采购需求有望加速。
港科大与快手联合提出NormGuard,针对流匹配模型强化学习训练中速度范数膨胀问题,通过训练时单向惩罚约束,在保留奖励的同时改善图像真实感。