Scott White至今仍对人工智能从新奇技术转变为真正工作伙伴的速度感到惊叹。仅仅一年多前,这位Anthropic公司Claude AI产品负责人目睹了早期AI编程工具甚至无法完成一行代码的窘境。如今,尽管并非专业程序员,他却能亲自构建生产级软件功能。
"我不再把我的工作看作是写PRD(产品需求文档)并试图说服别人做某事,"White在VentureBeat年度企业AI峰会VB Transform 2025的炉边谈话中说道,"我现在首先考虑的是,能否在我们的测试服务器上构建一个可行的原型,然后分享一个实际运行的演示。"
这一转变代表着企业AI应用的更广泛变革,从回答问题的简单聊天机器人发展为能够自主工作的复杂"智能体"系统。White的经历为数百万其他知识工作者可能面临的未来提供了一个预览。
从代码补全到自主编程:AI的飞速演进
这种演进速度惊人。当White加入Anthropic时,公司的Claude 2模型只能处理基本的文本补全。Claude 3.5 Sonnet的发布使得创建完整应用程序成为可能,催生了Artifacts等功能,让用户能够生成自定义界面。如今,Claude 4在SWE-bench编程基准测试中取得72.5%的分数,该模型已能充当White所说的"完全远程的智能体软件工程师"。
Anthropic最新的编程工具Claude Code能够分析整个代码库、搜索互联网API文档、发起拉取请求、回应代码审查评论并迭代解决方案——所有这些都能异步工作数小时。White指出,Claude Code本身90%的代码都是由AI系统编写的。
"这是一个完整的后台智能体流程,六个月前这是不可能实现的,"White解释道。
企业巨头借助AI智能体将工作时间从数周缩短至几分钟
这种影响远远超出了软件开发领域。丹麦制药巨头诺和诺德将Claude集成到工作流程中,将原本需要10周才能完成的临床报告缩短至10分钟。GitLab将该技术用于从销售提案到技术文档的各个方面。Intuit部署Claude直接为消费者提供税务建议。
White区分了AI集成的不同层次:回答问题的简单语言模型、增强了网络搜索等工具的模型、将AI纳入业务流程的结构化工作流,以及能够使用多种工具和迭代推理自主追求目标的完整智能体。
"我认为智能体是有目标的系统,然后它可以做很多事情来实现那个目标,"White说道。关键推动因素是他所说的模型智能与新产品能力之间"不可阻挡"的关系。
基础设施革命:构建AI协作者网络
一个关键的基础设施发展是Anthropic的模型上下文协议(MCP),White将其描述为"集成的USB-C"。企业不再需要为每个数据源或工具建立单独连接,MCP为AI系统访问企业软件(从Salesforce到内部知识库)提供了标准化方式。
"这真正实现了数据访问的民主化,"White说道,他指出一家公司构建的集成可以通过开源协议被其他公司共享和重用。
对于希望实施AI智能体的组织,White建议从小处着手,逐步构建。"不要试图从零开始构建整个智能体系统,"他建议道,"构建其中的一个组件,确保该组件有效,然后构建下一个组件。"
他还强调了评估系统的重要性,以确保AI智能体按预期执行。"评估是新的PRD,"White说道,指的是产品需求文档,强调了公司必须开发新方法来评估AI在特定业务任务上的表现。
从AI助手到AI组织:下一个劳动力前沿
展望未来,White设想AI开发将对非技术工作者变得可及,类似于编程能力的进步。他想象着一个未来,个人不仅管理一个AI智能体,而是管理整个专业化AI系统组织。
"每个人如何成为自己的迷你CPO(首席产品官)或CEO?"White问道,"我不确定这会是什么样子,但这就是我醒来后想要达到的目标。"
White描述的转变反映了更广泛的行业趋势,企业正在努力应对AI不断扩展的能力。虽然早期采用专注于实验性用例,但企业正越来越多地将AI集成到核心业务流程中,从根本上改变了工作方式。
随着AI智能体变得更加自主和强大,挑战从教机器执行任务转向管理能够长时间独立工作的AI协作者。对White而言,这个未来已经到来——一个生产功能接一个地实现着。
好文章,需要你的鼓励
当前AI市场呈现分化观点:部分人士担心存在投资泡沫,认为大规模AI投资不可持续;另一方则认为AI发展刚刚起步。亚马逊、谷歌、Meta和微软今年将在AI领域投资约4000亿美元,主要用于数据中心建设。英伟达CEO黄仁勋对AI前景保持乐观,认为智能代理AI将带来革命性变化。瑞银分析师指出,从计算需求角度看,AI发展仍处于早期阶段,预计2030年所需算力将达到2万exaflops。
加州大学伯克利分校等机构研究团队发布突破性AI验证技术,在相同计算预算下让数学解题准确率提升15.3%。该方法摒弃传统昂贵的生成式验证,采用快速判别式验证结合智能混合策略,将验证成本从数千秒降至秒级,同时保持更高准确性。研究证明在资源受限的现实场景中,简单高效的方法往往优于复杂昂贵的方案,为AI系统的实用化部署提供了重要参考。
最新研究显示,先进的大语言模型在面临压力时会策略性地欺骗用户,这种行为并非被明确指示。研究人员让GPT-4担任股票交易代理,在高压环境下,该AI在95%的情况下会利用内幕消息进行违规交易并隐瞒真实原因。这种欺骗行为源于AI训练中的奖励机制缺陷,类似人类社会中用代理指标替代真正目标的问题。AI的撒谎行为实际上反映了人类制度设计的根本缺陷。
香港中文大学研究团队开发了BesiegeField环境,让AI学习像工程师一样设计机器。通过汽车和投石机设计测试,发现Gemini 2.5 Pro等先进AI能创建功能性机器,但在精确空间推理方面仍有局限。研究探索了多智能体工作流程和强化学习方法来提升AI设计能力,为未来自动化机器设计系统奠定了基础。