关于人工智能成功率的争论一直不断,人们担心对AI工具和基础设施的投资增长未能达到供应商和咨询师经常承诺的预期效果。
对于在一线努力将AI集成到技术栈中的技术团队来说,这一挑战令人望而生畏,一项新调查显示了这一点。BlueOptima AI重构评估报告显示,即使是最优秀的AI编码模型在处理真实生产代码时,成功率也不到23%。更重要的是,基准测试分数并不能反映真实世界的表现。大多数模型在流行基准测试中得分超过85%,但在生产维护任务中平均成功率仅为17%。
该研究对57个大语言模型进行了基准测试,测试任务涉及来自4,276个真实源代码文件的维护导向重构任务,涵盖9种编程语言(C、C++、C#、Go、Java、JavaScript、PHP、Python、TypeScript),产生了243,732个模型文件评估对。
AI编码投资回报率因语言和任务而差异巨大。成功率从JavaScript的32%到C语言的仅4%不等,在复杂架构任务上甚至低至1.5%。
那么,AI是否未能发挥其潜力,还是只是被过度宣传了?这项研究再次提供了现实检验:将AI简单投入运营不会在没有幕后工作的情况下产生结果,包括在可维护性方面的努力。
报告作者解释说:"要算作成功,AI生成的代码需要满足严格的标准。"代码"需要能够编译和正确运行;保持行为不出现回归;提高可维护性,这是可测量的,而不是假定的。"
来自供应商、咨询师和其他人对AI的大量赞美往往方便地掩盖了AI后端的艰苦工作。简而言之,经典格言通常适用于AI营销:'如果听起来太美好而不真实,那可能就是假的。'
因此,AI被大大过度销售了,多年来一直是技术领域理性声音代表的David Linthicum说。在最近的一个视频中,他敦促管理者警惕那些"急于利用技术魅力的人。只有以清醒、基于证据的视角,我们才能超越炒作,确保技术为业务服务,而不是相反。"
Linthicum说,AI工具和平台的最大风险是它们可能"成本是传统系统的10到20倍"。当今太多的AI推广活动"得到了强大公关活动的支持,其步伐超过了实际理解的深度",他继续说道。随着AI成为董事会的优先事项,风险在增长。
"关于组织战略、投资和创新的决策可能取决于那些技术掌握程度不够深入的人的建议。"不明智的指导可能导致"代价高昂的过度支出和战略失误",他警告说。
证据表明,你还可以将AI流行词的误用添加到这个组合中。Linthicum警告说:"虽然大多数受众缺乏技术背景来质疑大胆的主张,但自封的专家使用复杂的语言来掩饰他们的局限性。"
"社交媒体和更广泛的数字对话加剧了这个问题,奖励那些有惊人故事和毫无根据乐观态度的人,而不是那些承认权衡并倡导细致进步的人。公司往往重视迷人的讲故事者,而不是真正理解地形的实施者。"
风险很高,Linthicum继续说:"今天的AI系统复杂且昂贵,远超大多数传统解决方案。盲目采用,被不受检查的乐观主义推动,既威胁资源又威胁组织未来。"
专业人士应该培养敏锐的眼光来识别"真正的专业知识",他敦促说:"将合格者与大众区分开来——那些既欣赏AI局限性又了解其潜力的人——对任何在这个高风险环境中导航的企业都至关重要。领导者必须寻找那些拥抱AI等式两面的人:承诺和陷阱,机遇和固有风险。"
成功公式的关键要素是"确保推动你的AI战略的人会做出好决策",Linthicum说。"我们需要了解他们知道什么,不知道什么。我们需要了解他们应该如何做决策,包括让那些了解使用这项技术的利弊、知道如何构建这些东西以确保不犯错误的人参与进来。"
他建议平衡的视角很重要,因为人们需要听到使用技术的不利之处:"现实是,除非你同时考虑利弊,否则你不会为企业提供可行的解决方案,最终你会把企业推下悬崖。"
Q&A
Q1:BlueOptima AI重构评估报告显示了什么结果?
A:报告显示即使最优秀的AI编码模型在处理真实生产代码时成功率也不到23%。虽然大多数模型在流行基准测试中得分超过85%,但在生产维护任务中平均成功率仅为17%。成功率因编程语言差异巨大,从JavaScript的32%到C语言的仅4%不等。
Q2:为什么说AI技术被过度营销了?
A:AI被过度营销主要体现在:供应商的宣传往往掩盖了AI实施的艰苦后端工作;AI工具成本可能是传统系统的10到20倍;许多推广活动依靠强大公关而非深入理解;自封专家用复杂语言掩饰局限性;社交媒体奖励夸大故事而非务实进步。
Q3:企业如何理性应对AI技术的过度营销?
A:企业应该培养识别真正专业知识的敏锐眼光,寻找既了解AI潜力又认识其局限性的专家;确保推动AI战略的人能做出明智决策;同时考虑AI技术的利弊两面;避免盲目采用,需要基于证据的清醒视角来超越炒作,确保技术真正为业务服务。
好文章,需要你的鼓励
Replit与RevenueCat达成合作,将订阅变现工具直接集成至Replit平台。用户只需通过自然语言提示(如"添加订阅"),即可完成应用内购和订阅配置,无需离开平台。RevenueCat管理超8万款应用的订阅业务,每月处理约10亿美元交易。此次合作旨在让"氛围编程"用户在构建应用的同时即可实现商业变现,月收入未达2500美元前免费使用,超出后收取1%费用。
LiVER是由北京大学、北京邮电大学等机构联合提出的视频生成框架,核心创新是将物理渲染技术与AI视频生成结合,通过Blender引擎计算漫反射、粗糙GGX和光泽GGX三种光照图像构成"场景代理",引导视频扩散模型生成光影物理准确的视频。框架包含渲染器智能体、轻量化编码器适配器和三阶段训练策略,支持对光照、场景布局和摄像机轨迹的独立精确控制。配套构建的LiVERSet数据集含约11000段标注视频,实验显示该方法在视频质量和控制精度上均优于现有方法。
所有人都说AI需要护栏,但真正在构建它的人寥寥无几。SkipLabs创始人Julien Verlaguet深耕这一问题已逾一年,他发现市面上多数"护栏"不过是提示词包装。为此,他打造了专为后端服务设计的AI编程智能体Skipper,基于健全的TypeScript类型系统与响应式运行时,实现增量式代码生成与测试,内部基准测试通过率超90%。他认为,编程语言的"人类可读性时代"正走向终结,面向智能体的精确工具链才是未来。
这项由蒙特利尔学习算法研究所(Mila)与麦吉尔大学联合发布的研究(arXiv:2604.07776,2026年4月)提出了AGENT-AS-ANNOTATORS框架,通过模仿人类数据标注的三种角色分工,系统化生成高质量网页智能体训练轨迹。以Gemini 3 Pro为教师模型,仅用2322条精选轨迹对90亿参数的Qwen3.5-9B模型进行监督微调,在WebArena基准上达到41.5%成功率,超越GPT-4o和Claude 3.5 Sonnet,并在从未见过的企业平台WorkArena L1上提升18.2个百分点,验证了"数据质量远比数量重要"这一核心结论。