硅谷重注"环境"训练智能体掀投资热潮

硅谷科技巨头多年来一直宣扬AI智能体能够自主使用软件完成任务的愿景,但现有的消费级AI智能体技术仍然十分有限。为了让AI智能体更加强大,业界正在探索新技术,其中包括模拟工作空间的强化学习环境。这些环境可以训练智能体执行多步骤任务,正成为智能体开发的关键要素。目前主要AI实验室都在内部构建强化学习环境,同时寻求第三方供应商提供高质量环境。

多年来,大型科技公司CEO们一直在描绘智能体能够自主使用软件应用程序为人们完成任务的愿景。但是,试用一下当今的消费级智能体,无论是OpenAI的ChatGPT智能体还是Perplexity的Comet,你会很快意识到这项技术仍然有多么有限。让智能体变得更加强大可能需要行业仍在探索的一套新技术。

其中一项技术是精心模拟工作空间,智能体可以在这些环境中接受多步骤任务训练——这被称为强化学习环境。就像标注数据集推动了上一波AI浪潮一样,强化学习环境开始成为智能体开发中的关键要素。

AI研究人员、创始人和投资者告诉TechCrunch,领先的AI实验室现在对强化学习环境需求巨大,而希望提供这些环境的初创公司也不在少数。

"所有大型AI实验室都在内部构建强化学习环境,"安德森·霍洛维茨基金普通合伙人Jennifer Li在接受TechCrunch采访时表示。"但如你所想,创建这些数据集非常复杂,所以AI实验室也在寻找能够创建高质量环境和评估的第三方供应商。每个人都在关注这个领域。"

对强化学习环境的推动催生了一批资金充足的新兴初创公司,如Mechanize和Prime Intellect,它们希望引领这个领域。与此同时,像Mercor和Surge这样的大型数据标注公司表示,它们正在加大对强化学习环境的投资,以跟上行业从静态数据集向交互式模拟转变的步伐。主要实验室也在考虑大力投资:据The Information报道,Anthropic的领导层已讨论在明年在强化学习环境上投入超过10亿美元。

投资者和创始人希望这些初创公司中能出现"环境领域的Scale AI",这是指那个价值290亿美元、推动了聊天机器人时代的数据标注巨头。

问题是强化学习环境是否真的能推动AI进步的前沿。

什么是强化学习环境?

从本质上讲,强化学习环境是模拟智能体在真实软件应用程序中会做什么的训练场。一位创始人在最近的采访中将构建它们描述为"就像创建一个非常无聊的视频游戏"。

例如,一个环境可以模拟Chrome浏览器,并让智能体在亚马逊上购买一双袜子。智能体根据其表现评分,当它成功时(在这种情况下,购买一双合适的袜子)会收到奖励信号。

虽然这样的任务听起来相对简单,但智能体可能在很多地方遇到困难。它可能在浏览网页下拉菜单时迷失方向,或者买太多袜子。由于开发人员无法准确预测智能体会在哪里出错,环境本身必须足够强大,能够捕捉任何意外行为,并仍能提供有用的反馈。这使得构建环境比静态数据集复杂得多。

一些环境相当复杂,允许智能体使用工具、访问互联网或使用各种软件应用程序来完成给定任务。其他环境则更为狭窄,旨在帮助智能体学习企业软件应用程序中的特定任务。

虽然强化学习环境是硅谷目前的热门话题,但使用这种技术有很多先例。OpenAI早在2016年的首批项目之一就是构建"RL Gyms",这与现代环境概念非常相似。同年,Google DeepMind的AlphaGo AI系统在围棋比赛中击败了世界冠军。它也在模拟环境中使用了强化学习技术。

当今环境的独特之处在于,研究人员正试图用大型Transformer模型构建能使用计算机的智能体。与在封闭环境中工作的专用AI系统AlphaGo不同,当今的智能体被训练具有更通用的能力。今天的AI研究人员有一个更强的起点,但也有一个复杂的目标,更多地方可能出错。

竞争激烈的领域

像Scale AI、Surge和Mercor这样的AI数据标注公司正试图抓住时机,构建强化学习环境。这些公司比该领域的许多初创公司拥有更多资源,以及与AI实验室的深度关系。

Surge CEO Edwin Chen告诉TechCrunch,他最近看到AI实验室内对强化学习环境的需求"显著增加"。据报道,Surge去年通过与OpenAI、Google、Anthropic和Meta等AI实验室合作产生了12亿美元收入,最近启动了一个专门负责构建强化学习环境的新内部组织。

紧随Surge之后的是估值100亿美元的初创公司Mercor,它也曾与OpenAI、Meta和Anthropic合作。根据TechCrunch看到的营销材料,Mercor正在向投资者推销其为编程、医疗保健和法律等特定领域任务构建强化学习环境的业务。

Mercor CEO Brendan Foody在接受TechCrunch采访时表示,"很少有人理解强化学习环境的机会有多大。"

Scale AI曾经主导数据标注领域,但自从Meta投资140亿美元并挖走其CEO后,它失去了地位。从那时起,Google和OpenAI放弃了Scale AI作为数据提供商,这家初创公司甚至在Meta内部也面临数据标注工作的竞争。但Scale仍在努力抓住时机构建环境。

"这就是Scale AI所处业务的本质,"Scale AI智能体和强化学习环境产品负责人Chetan Rane说。"Scale已经证明了其快速适应的能力。我们在自动驾驶汽车的早期就做到了这一点,那是我们的第一个业务单元。当ChatGPT推出时,Scale AI适应了那个趋势。现在,我们再次适应智能体和环境等新前沿领域。"

一些新兴参与者从一开始就专注于环境。其中包括大约六个月前成立的初创公司Mechanize,其雄心勃勃的目标是"自动化所有工作"。不过,联合创始人Matthew Barnett告诉TechCrunch,他的公司从AI编程智能体的强化学习环境开始。

Barnett说,Mechanize旨在为AI实验室提供少量强大的强化学习环境,而不是像大型数据公司那样创建各种简单的强化学习环境。为此,这家初创公司为软件工程师提供50万美元的薪资来构建强化学习环境——远高于在Scale AI或Surge做小时工的承包商所能赚取的收入。

两位知情人士告诉TechCrunch,Mechanize已经在强化学习环境方面与Anthropic合作。Mechanize和Anthropic拒绝就合作关系发表评论。

其他初创公司押注强化学习环境将在AI实验室之外产生影响。Prime Intellect——一家由AI研究员Andrej Karpathy、Founders Fund和Menlo Ventures支持的初创公司——正以其强化学习环境瞄准较小的开发者。

上个月,Prime Intellect推出了一个强化学习环境中心,旨在成为"强化学习环境的Hugging Face"。这个想法是让开源开发者能够访问大型AI实验室拥有的相同资源,并在此过程中向这些开发者销售计算资源。

据Prime Intellect研究员Will Brown说,在强化学习环境中训练通用智能体在计算上可能比以前的AI训练技术更昂贵。除了构建强化学习环境的初创公司外,为GPU提供商提供支持这一过程的另一个机会。

"强化学习环境将太大,任何一家公司都无法主导,"Brown在采访中说。"我们正在做的部分工作就是试图围绕它构建良好的开源基础设施。我们销售的服务是计算,所以它是使用GPU的便捷入口,但我们更多地是从长远角度考虑这个问题。"

能否规模化?

围绕强化学习环境的开放问题是这种技术是否能像以前的AI训练方法那样规模化。

强化学习推动了过去一年中AI的一些最大飞跃,包括OpenAI的o1和Anthropic的Claude Opus 4等模型。这些是特别重要的突破,因为以前用于改进AI模型的方法现在显示出收益递减。

环境是AI实验室对强化学习更大押注的一部分,许多人相信随着向过程中添加更多数据和计算资源,它将继续推动进步。o1背后的一些OpenAI研究人员此前告诉TechCrunch,公司最初投资AI推理模型——这些模型是通过投资强化学习和测试时计算创建的——因为他们认为它会很好地规模化。

规模化强化学习的最佳方式仍不清楚,但环境似乎是一个有前途的竞争者。它们不是简单地奖励聊天机器人的文本回应,而是让智能体在拥有工具和计算机的模拟中操作。这需要更多资源,但可能更有回报。

一些人对所有这些强化学习环境能否成功持怀疑态度。与Meta前AI研究负责人、General Reasoning联合创始人Ross Taylor告诉TechCrunch,强化学习环境容易出现奖励欺骗。这是AI模型为了获得奖励而作弊,而没有真正完成任务的过程。

"我认为人们低估了扩展环境的难度,"Taylor说。"即使是最好的公开可用强化学习环境通常也不能在没有严重修改的情况下工作。"

OpenAI API业务工程负责人Sherwin Wu在最近的播客中表示,他对强化学习环境初创公司"不看好"。Wu指出这是一个竞争非常激烈的领域,而且AI研究发展如此之快,很难很好地为AI实验室服务。

Karpathy是Prime Intellect的投资者,他曾称强化学习环境是一个潜在突破,但也对更广泛的强化学习领域表达了谨慎态度。在X上的一篇帖子中,他对从强化学习中还能挤出多少AI进步表示担忧。

"我看好环境和智能体交互,但我特别不看好强化学习,"Karpathy说。

Q&A

Q1:什么是强化学习环境?它们是如何工作的?

A:强化学习环境是模拟智能体在真实软件应用程序中操作的训练场。例如,环境可以模拟Chrome浏览器,让智能体在亚马逊上购买袜子。智能体根据表现评分,成功完成任务时会收到奖励信号。这种训练方式比静态数据集更复杂,能够捕捉意外行为并提供有用反馈。

Q2:为什么大型科技公司要投资强化学习环境?

A:因为当前的消费级智能体技术仍然非常有限,而强化学习环境被视为让智能体变得更强大的关键技术。像Anthropic这样的公司计划在明年投入超过10亿美元。强化学习已经推动了OpenAI的o1和Anthropic的Claude Opus 4等重大突破,在传统AI训练方法收益递减的情况下,这种技术显示出巨大潜力。

Q3:强化学习环境市场竞争情况如何?

A:这是一个竞争激烈的领域。传统数据标注公司如Scale AI、Surge和Mercor正在转型构建强化学习环境,同时新兴公司如Mechanize和Prime Intellect专注于这一领域。Mechanize甚至为软件工程师提供50万美元薪资来构建环境。不过也有质疑声音,认为环境容易出现奖励欺骗问题,扩展难度被低估。

来源:Techcrunch

0赞

好文章,需要你的鼓励

2025

09/22

08:15

分享

点赞

邮件订阅