Scott White至今仍对人工智能从新奇技术转变为真正工作伙伴的速度感到惊叹。仅仅一年多前,这位Anthropic公司Claude AI产品负责人目睹了早期AI编程工具甚至无法完成一行代码的窘境。如今,尽管并非专业程序员,他却能亲自构建生产级软件功能。
"我不再把我的工作看作是写PRD(产品需求文档)并试图说服别人做某事,"White在VentureBeat年度企业AI峰会VB Transform 2025的炉边谈话中说道,"我现在首先考虑的是,能否在我们的测试服务器上构建一个可行的原型,然后分享一个实际运行的演示。"
这一转变代表着企业AI应用的更广泛变革,从回答问题的简单聊天机器人发展为能够自主工作的复杂"智能体"系统。White的经历为数百万其他知识工作者可能面临的未来提供了一个预览。
从代码补全到自主编程:AI的飞速演进
这种演进速度惊人。当White加入Anthropic时,公司的Claude 2模型只能处理基本的文本补全。Claude 3.5 Sonnet的发布使得创建完整应用程序成为可能,催生了Artifacts等功能,让用户能够生成自定义界面。如今,Claude 4在SWE-bench编程基准测试中取得72.5%的分数,该模型已能充当White所说的"完全远程的智能体软件工程师"。
Anthropic最新的编程工具Claude Code能够分析整个代码库、搜索互联网API文档、发起拉取请求、回应代码审查评论并迭代解决方案——所有这些都能异步工作数小时。White指出,Claude Code本身90%的代码都是由AI系统编写的。
"这是一个完整的后台智能体流程,六个月前这是不可能实现的,"White解释道。
企业巨头借助AI智能体将工作时间从数周缩短至几分钟
这种影响远远超出了软件开发领域。丹麦制药巨头诺和诺德将Claude集成到工作流程中,将原本需要10周才能完成的临床报告缩短至10分钟。GitLab将该技术用于从销售提案到技术文档的各个方面。Intuit部署Claude直接为消费者提供税务建议。
White区分了AI集成的不同层次:回答问题的简单语言模型、增强了网络搜索等工具的模型、将AI纳入业务流程的结构化工作流,以及能够使用多种工具和迭代推理自主追求目标的完整智能体。
"我认为智能体是有目标的系统,然后它可以做很多事情来实现那个目标,"White说道。关键推动因素是他所说的模型智能与新产品能力之间"不可阻挡"的关系。
基础设施革命:构建AI协作者网络
一个关键的基础设施发展是Anthropic的模型上下文协议(MCP),White将其描述为"集成的USB-C"。企业不再需要为每个数据源或工具建立单独连接,MCP为AI系统访问企业软件(从Salesforce到内部知识库)提供了标准化方式。
"这真正实现了数据访问的民主化,"White说道,他指出一家公司构建的集成可以通过开源协议被其他公司共享和重用。
对于希望实施AI智能体的组织,White建议从小处着手,逐步构建。"不要试图从零开始构建整个智能体系统,"他建议道,"构建其中的一个组件,确保该组件有效,然后构建下一个组件。"
他还强调了评估系统的重要性,以确保AI智能体按预期执行。"评估是新的PRD,"White说道,指的是产品需求文档,强调了公司必须开发新方法来评估AI在特定业务任务上的表现。
从AI助手到AI组织:下一个劳动力前沿
展望未来,White设想AI开发将对非技术工作者变得可及,类似于编程能力的进步。他想象着一个未来,个人不仅管理一个AI智能体,而是管理整个专业化AI系统组织。
"每个人如何成为自己的迷你CPO(首席产品官)或CEO?"White问道,"我不确定这会是什么样子,但这就是我醒来后想要达到的目标。"
White描述的转变反映了更广泛的行业趋势,企业正在努力应对AI不断扩展的能力。虽然早期采用专注于实验性用例,但企业正越来越多地将AI集成到核心业务流程中,从根本上改变了工作方式。
随着AI智能体变得更加自主和强大,挑战从教机器执行任务转向管理能够长时间独立工作的AI协作者。对White而言,这个未来已经到来——一个生产功能接一个地实现着。
好文章,需要你的鼓励
很多人担心被AI取代,陷入无意义感。按照杨元庆的思路,其实无论是模型的打造者,还是模型的使用者,都不该把AI放在人的对立面。
MIT研究团队提出递归语言模型(RLM),通过将长文本存储在外部编程环境中,让AI能够编写代码来探索和分解文本,并递归调用自身处理子任务。该方法成功处理了比传统模型大两个数量级的文本长度,在多项长文本任务上显著优于现有方法,同时保持了相当的成本效率,为AI处理超长文本提供了全新解决方案。
谷歌宣布对Gmail进行重大升级,全面集成Gemini AI功能,将其转变为"个人主动式收件箱助手"。新功能包括AI收件箱视图,可按优先级自动分组邮件;"帮我快速了解"功能提供邮件活动摘要;扩展"帮我写邮件"工具至所有用户;支持复杂问题查询如"我的航班何时降落"。部分功能免费提供,高级功能需付费订阅。谷歌强调用户数据安全,邮件内容不会用于训练公共AI模型。
华为研究团队推出SWE-Lego框架,通过混合数据集、改进监督学习和测试时扩展三大创新,让8B参数AI模型在代码自动修复任务上击败32B对手。该系统在SWE-bench Verified测试中达到42.2%成功率,加上扩展技术后提升至49.6%,证明了精巧方法设计胜过简单规模扩展的技术理念。