我一直认为,AI之所以率先在软件工程领域站稳脚跟,根本原因在于这个环境足够诚实。写一篇博客文章或制定营销策略时,"正确性"不过是一种感觉。但在编程世界里,结果是二元的——代码要么能编译,要么不能;测试要么通过,要么失败。
这正是软件成为AI完美试验场的原因。我们早已拥有AI所需的基础设施:快速失败的机制、清晰的反馈信号,以及撤销或回滚变更的能力。在一个由系统本身执行规则的领域,AI不必猜测自己的工作是否正确——编译器会直接告诉它答案。而编程之所以适合AI,也为其他正在探索AI落地场景的行业提供了宝贵的参考。
从自动补全到真正的协作伙伴
我还记得AI辅助编程只是高级自动补全的年代——它能查查文档、补全几行样板代码,是个小把戏,但算不上真正的伙伴。
对我而言,也对整个行业而言,真正的转折点出现在大语言模型开始展现出对代码库意图的真实理解之时。
当GitHub Copilot这类工具开始尊重我们本地的代码风格和命名规范,一切都改变了。我们不再在另一个标签页里和机器人聊天,而是真正与它并肩工作。如今,AI已深度嵌入我们的IDE和CI流水线,我几乎感受不到自己的输入在哪里结束、AI的建议从哪里开始。它从一个工具,变成了一个队友。
更高级的抽象,从未削弱严谨性
每当有人担忧我们正在失去编程的"手艺",我就会想起20世纪中期的历史。从汇编语言过渡到高级语言,走的是完全相同的剧本:
老一辈人把它称为作弊;所有人都在恐慌,担心失去对每一个字节的控制;最终所有人都妥协了,因为生产力的提升实在无法抗拒。
每一个抱怨Python太简单的C++开发者背后,都站着一个认为C++同样"轻松"的汇编程序员。
但现实是,高级语言并没有让我们变得不严谨,而是把我们从管理寄存器的琐事中解放出来,让我们得以专注于系统本身。在我看来,AI不过是这个技术栈的下一层。契约始终如一:你可以使用任何抽象,只要你能执行它并验证结果。
从代码补全到智能体工作流
我们已经走过了简单代码补全的时代。如今,我看到AI开始承担更繁重的任务:重构混乱的遗留代码、生成测试套件,甚至协助规划高层架构。
这一转变与OpenAI、Anthropic等机构推出推理优化模型的时间节点高度吻合——这些模型的训练明确将代码与多步推理和问题分解能力的提升挂钩。事实证明,当你用代码训练一个模型时,你实际上是在教它如何思考复杂的多步骤问题。编程查询现已成为消费端和企业端AI使用量最大、增长最快的类别之一。
而当前真正的前沿,是智能体工作流。我们正在超越AI仅提供建议的阶段。现在,这些系统能够自主导航代码仓库、运行测试,并实时修复自身的错误。
令我最着迷的是这种使用密度。软件是AI每天在真实生产约束下被推向极限的唯一场所。这创造了一个巨大的正向循环:使用越多,反馈越快;反馈推动模型改进;模型改进让工作流更顺畅;更顺畅的工作流又促使我们更多地使用它。
要真正理解为何这个循环在编程领域率先爆发,而其他行业还在摸索,就必须审视定义开发者日常生活的核心要素:反馈循环。
硬真相环境:编程为何天然适合AI
任何学习系统的进步,与其说取决于基础模型有多聪明,不如说取决于它获得的反馈质量。这一原则在机器学习领域早有定论,尤其在强化学习中,奖励信号的结构与时机往往比策略本身的复杂度更为关键。反馈越即时、越客观,学习越快;反馈越滞后、越模糊,进步越迟缓。
在大多数领域,反馈是软性的。作家需要等待受众的主观反应,律师可能要等几个月才能看到法官如何裁决。在那些世界里,信号嘈杂而迟缓,这让AI(乃至人类)极难判断自己是否真的在进步。
编程恰恰相反。它是一个硬真相环境,可以说近乎苛刻——少一个分号就可能让一个价值十亿美元的系统崩溃。但这正是它成为AI生长最佳土壤的原因。
当AI写出代码,环境会将"也许"变成"是"或"否"。代码听起来多么合理都无关紧要,因为它一旦碰到解析器、类型检查器或测试套件,真相就会浮现。编译器、代码检查工具、测试框架——这些工具充当公正的裁判,提供模型真正需要的奖励信号。
这个紧密的循环改变了整个动态:
隐形错误变得响亮:AI的错误不再是看似正确实则错误的幻觉,而是以具体的报错信息呈现出来。没有人能跟堆栈追踪争辩。
自我修正成本极低:因为代码可以执行,AI可以实际运行自己的代码、看到报错并在我看到之前就完成修复。
信任来自验证,而非盲目:我不必相信AI是对的,因为在我看代码审查之前,机器已经验证了输出结果。
归根结底,编程为AI提供了在规模化应用中真正发挥作用所迫切需要的严谨性。通过迫使这些模型在要求客观正确性的系统内工作,我们将AI从一个建议引擎,变成了日常工作中真正的参与者。
递归改进循环
在代码世界里,你不能只是听起来聪明。因为机器会执行你的逻辑,它奖励结构化推理,惩罚听起来有理实则荒谬的废话。这些逻辑能力的增益会直接流回到我们的日常工作中。
随着这些模型在规划和处理约束方面越来越强,它们成为更好的合作伙伴。它们不再只是代码生成器,而是开始帮助我们重构庞大的模块、追踪依赖地狱,并探索我们可能遗漏的架构方案。
这在我看来形成了一个递归循环:更好的模型带来更好的工具;更好的工具意味着我们在AI参与下编写、测试和审查更多代码;整个过程产生大量高质量数据、执行轨迹、Bug修复记录和人类参与评估,这些数据又反哺下一个更优的模型。
作为工程师,我们并非这项技术的被动使用者。每一次编写提示词、微调模型或将新工具集成到工作流中,我们都在主动塑造它。我们这样做,是因为我们最接近痛点,也最先受益于那些繁琐工作的消失。
你可以在这个转变中看到整个行业的历史缩影:
软件1.0时代,编译器和严格的正确性规则奠定了基础。
软件2.0时代,我们学会了构建从数据中学习的系统。
软件3.0时代,正是我们此刻所身处的时代:用大语言模型来编排软件,将自然语言意图转化为被执行的现实。
编程是独特的,因为它将痛苦、控制与反馈集中在同一个地方。这是AI进化最快的领域,因为每一项改进都会立即被实际工作中的人检验和强化。
AI跨行业规模化的蓝图
我并不认为AI在软件领域的成功只是一件"科技圈的事"。它实际上是一份蓝图。如果你希望AI在任何其他领域产生真实而持久的影响,就必须遵循我们在实战中总结出的经验。
第一:让结果可执行。当AI产出的内容能被真正运行、模拟或机械化测试时,它才能发挥最大价值。如果输出的只是一份需要人去感受对不对的文档,你就很难对将这个系统投入生产抱有信心。你需要将抽象想法转化为系统可以验证的东西。
第二:为快速且低成本的失败而设计。我们在早期暴露问题时学得最快。在编程中,编译器几秒钟就能告诉我们哪里出了错。其他行业需要构建自己的测试套件,才能让AI超越泛泛的建议。如果发现AI犯了错误需要三个月,你已经输了,因为你的学习速度太慢。
第三:将智能与护栏分离。在软件中,我们让AI探索创意意图,但让确定性系统——编译器和代码检查工具——来执行正确性。这是安全的秘诀:让概率模型去发挥,但把它关在一个由严格可靠规则构成的笼子里。
第四:为一切内置撤销按钮。没有可逆性,就没有自主性。我们拥有版本控制、沙箱环境和回滚机制,这让实验变得安全。如果一个行业没有清晰的错误恢复路径,就永远不会有信心让AI智能体真正掌舵。
第五:把AI放在工作真正发生的地方。GitHub Copilot之所以成功,是因为它不要求我们离开代码编辑器,而是主动来到我们所在之处。持续的日常使用,才是产生改进所需反馈的来源。
验证能力,才是AI下一波进步的核心驱动力
编程代表的是大规模AI普及的起点,而非终点。之所以我们在开发工作中看到如此不均衡的AI爆发,是因为我们早已具备了硬真相基础设施。我们不需要改变文化来适应AI,因为我们本就生活在一个每次按下运行键都必须证明想法可行的环境中。
其他行业将会跟随,但前提是它们开始采纳同样的思维方式。随着医疗、法律、制造等领域投入高保真仿真和自动化测试,它们将变得足够安全,让AI从提供建议走向真正行动。
我们需要的不是更聪明的模型,而是更好的方法来对模型的决策进行压力测试,并在出现偏差时立即按下撤销键。
路线图其实很简单:AI的成功,归根结底在于重新设计你的世界,让决策可以被机器检验。
有了仿真和撤销按钮,AI跑得飞快。仍然依赖人类直觉的地方,AI只能保持谨慎与有限。
软件开发成为终极实验室,因为它早已拥有暴露失败、执行真相的机制。这是我们学会如何将AI从建议引擎升级为生产系统的地方。
AI进步的下一波浪潮,不会由新的模型架构或更大的GPU集群来定义,而将由可验证性驱动。编程已经向我们展示了当你强迫AI的想法面对现实时会发生什么。下一个重大突破,将属于那个足够勇敢、敢于做同样事情的行业。
Q&A
Q1:编程为什么特别适合成为AI能力发展的试验场?
A:编程环境提供了即时、客观的反馈机制——代码要么能运行,要么不能,测试要么通过,要么失败。编译器、代码检查工具和测试框架充当公正的裁判,让AI能够快速获得明确的奖励信号。这种"硬真相环境"使AI可以实际运行自己的代码、发现错误并自我修正,形成紧密的改进循环,而这在大多数依赖主观或滞后反馈的行业中是难以复制的。
Q2:AI辅助编程经历了哪些关键发展阶段?
A:AI辅助编程大致经历了三个阶段:最初只是简单的代码自动补全,能查文档、补全样板代码;随后大语言模型开始理解代码库的真实意图,GitHub Copilot等工具开始尊重本地代码风格,AI从工具变为"队友";目前正进入智能体工作流阶段,AI能够自主导航代码仓库、运行测试并实时修复错误,深度嵌入IDE和CI流水线。
Q3:其他行业要复制编程领域AI成功经验,需要具备哪些条件?
A:根据文章总结,其他行业需要做到五点:让AI产出的结果可被执行或机械化验证;设计快速且低成本的失败机制;将AI的创意探索与确定性规则系统分离;为所有操作内置撤销与回滚能力;将AI工具直接嵌入实际工作流程中。医疗、法律、制造等领域只有投入高保真仿真和自动化测试基础设施,才能让AI真正从提供建议走向自主行动。
好文章,需要你的鼓励
B&H近期对多款M5 Pro MacBook Pro机型推出300美元优惠。14英寸M5 Pro版本(48GB内存+1TB固态硬盘)现售价2299美元,较原价2599美元节省300美元,且该配置在亚马逊无法购买,折扣机会更为难得。此外,16英寸M5 Pro版本(64GB内存+1TB固态硬盘)同样享有300美元折扣。B&H在多款高配MacBook机型上的定价已低于亚马逊,是近期可找到的最优价格。
FORTIS是专门测量AI代理"越权行为"的基准测试,研究发现十款顶尖模型普遍选择远超任务需要的高权限技能,端到端成功率最高仅14.3%。
Insta360推出GO 3S复古套装,将现代4K运动相机与胶片时代美学结合。套装核心仍是仅重39克的GO 3S,新增复古取景器、胶片风格滤镜、NFC定制外壳及可延长录制时长至76分钟的电池组。复古取景器模仿老式腰平相机设计,鼓励用户放慢节奏、专注构图。相机内置11种色彩预设及负片、正片等滤镜,同时保留FlowState防抖、4K拍摄及10米防水能力,面向热衷复古影像风格的年轻创作者。
荷兰Nebius团队提出SlimSpec,通过低秩分解压缩草稿模型LM-Head的内部表示而非裁剪词汇,在保留完整词汇表的同时将LM-Head计算时间压缩至原来的五分之一,端到端推理速度超越现有方法最高达9%。