强化学习能否引领我们迈向通用人工智能?

强化学习正在重新成为AI领域的焦点技术。虽然该技术起源于20世纪70年代,但直到最近与大语言模型结合后才展现出巨大潜力。从人类反馈强化学习到可验证奖励强化学习,这些方法使AI模型获得了推理能力。然而,关键问题仍待解答:强化学习能否在难以验证的领域实现突破?大规模扩展会带来什么结果?尽管存在挑战,强化学习不受人类能力限制,有望创造超越人类的新型智能。

人工智能领域真正全新的理念并不多见。

更多时候,AI的突破发生在多年来存在的概念突然获得新力量的时刻,因为底层技术投入——特别是原始计算能力——终于跟上了释放这些概念全部潜力的步伐。

著名的杰夫·辛顿和一小群合作者从20世纪70年代初开始就不懈地致力于神经网络研究。几十年来,这项技术并没有真正发挥作用,外界也很少关注。直到2010年代初——得益于足够强大的英伟达GPU和互联网规模训练数据的到来——神经网络的潜力才终于被释放出来供所有人看到。2024年,在开始神经网络工作半个多世纪后,辛顿因开创现代AI领域而获得诺贝尔奖。

强化学习也遵循了类似的轨迹。

现代强化学习之父理查德·萨顿和安德鲁·巴托从20世纪70年代开始奠定了该领域的基础。甚至在萨顿和巴托开始工作之前,强化学习的基本原理——简而言之,基于正负反馈通过试错学习——就已经被行为心理学家和动物研究者在20世纪初发展出来了。

然而,就在过去一年中,强化学习(RL)的进展在AI世界中获得了前所未有的重要性和紧迫性。越来越清楚的是,AI能力的下一次飞跃将由RL驱动。如果通用人工智能(AGI)确实即将到来,强化学习将在引领我们到达那里的过程中发挥核心作用。就在几年前,当ChatGPT的发布开启生成式AI时代时,几乎没有人会预测到这一点。

关于强化学习的能力和局限性,深层次的问题仍未得到解答。今天没有哪个AI领域比RL发展得更快。理解这项技术、它的历史和未来从未如此重要。

**强化学习基础知识**

强化学习的基本原理自萨顿和巴托在20世纪70年代建立该领域以来一直保持一致。

RL的本质是通过与世界互动并观察结果来学习。这是一种普遍且基础的学习形式;每个人类和动物都在这样做。

在人工智能的背景下,强化学习系统由与环境互动的智能体组成。RL智能体不会从人类那里获得直接指令或答案;相反,它们通过试错来学习。当智能体在环境中采取行动时,它会从环境中接收奖励信号,表明该行动产生了积极或消极的结果。智能体的目标是调整其行为,以随时间最大化积极奖励并最小化消极奖励。

智能体如何决定采取哪些行动?每个智能体都根据策略行动,这可以理解为根据环境的特定状态确定智能体行动的公式或计算。策略可以是一套简单的规则,甚至是纯随机的,也可以由更复杂的系统表示,比如深度神经网络。

在RL中需要理解的最后一个重要概念,与奖励信号密切相关,就是价值函数。价值函数是智能体对环境给定状态在长期内将有多么有利(即它将导致多少积极和消极奖励)的估计。虽然奖励信号是基于当前条件从环境中获得的即时反馈,但价值函数是智能体自己学习到的对长期发展的估计。

价值函数的全部目的是估计奖励信号,但与奖励信号不同,价值函数使智能体能够在更长的时间范围内进行推理和规划。例如,价值函数可以激励行动,即使它们导致短期负面奖励,因为长期利益被估计是值得的。

当RL智能体学习时,它们以三种方式之一进行:更新其策略、更新其价值函数,或同时更新两者。

一个简短的例子将有助于使这些概念具体化。

想象将强化学习应用于国际象棋游戏。在这种情况下,智能体是AI象棋棋手。环境是棋盘,任何给定的棋子配置都代表该环境的状态。智能体的策略是根据当前棋盘状态确定下哪一步的函数(无论是简单的规则集、决策树、神经网络还是其他东西)。奖励信号很简单:智能体赢棋时为正,输棋时为负。智能体的价值函数是其对任何给定棋盘位置有多么有利或不利的学习估计——即该位置导致胜利或失败的可能性。

随着智能体下更多棋局,导致胜利的策略将通过智能体策略和价值函数的更新得到积极强化,导致失败的策略将得到消极强化。逐渐地,AI系统将成为更强的象棋棋手。

在21世纪,有一个组织比任何其他组织都更加倡导和推进强化学习领域:DeepMind。

DeepMind成立于2010年,是一家致力于解决人工智能问题的初创公司,然后在2014年被谷歌以约6亿美元收购,这家总部位于伦敦的公司很早就在强化学习上下了大赌注,认为这是AI最有前途的前进道路。

这个赌注得到了回报。

2010年代下半叶是强化学习领域的胜利年代。

2016年,DeepMind的AlphaGo成为第一个在古老的中国围棋游戏中击败人类世界冠军的AI系统,这是许多AI专家认为不可能的壮举。2017年,DeepMind推出了AlphaZero,它完全通过自我对弈学会了围棋、国际象棋和日本将棋,并击败了这些游戏中的所有其他AI和人类竞争对手。2019年,DeepMind推出了AlphaStar,它掌握了视频游戏星际争霸——一个比围棋更复杂的环境,因为有庞大的行动空间、不完全信息、众多智能体和实时游戏。

AlphaGo、AlphaZero、AlphaStar——强化学习为每一个里程碑式成就提供了动力。

随着2010年代接近尾声,RL似乎准备主导即将到来的人工智能突破一代,DeepMind引领着这个方向。

但这不是发生的事情。

就在那个时候,一种新的AI范式意外地闯入聚光灯下:用于自回归语言模型的自监督学习。

2019年,一个名为OpenAI的小型非营利研究实验室发布了一个名为GPT-2的模型,展示了令人惊讶的强大通用语言能力。次年夏天,OpenAI推出了GPT-3,其惊人的能力代表了从GPT-2的巨大性能飞跃,并席卷了AI世界。2022年推出了ChatGPT。

很快,世界上每个AI组织都重新调整了其研究重点,优先考虑大语言模型和生成式AI。

这些大语言模型(LLM)基于Transformer架构,并通过积极扩展的策略成为可能。它们在比任何以前的AI训练数据语料库都更大的未标记数据集上训练——基本上是整个互联网——并扩展到前所未有的模型规模。(GPT-2在15亿参数时被认为是令人难以置信的大;一年后,GPT-3以1750亿参数首次亮相。)

强化学习在五年内失宠了。2020年代初广泛流传的叙述是,DeepMind严重误读了技术趋势,致力于强化学习并错过了生成式AI的船。

然而今天,强化学习已经重新成为AI内最热门的领域。发生了什么?

简而言之,AI研究人员发现将强化学习应用于生成式AI模型是一个杀手级组合。

从基础LLM开始,然后在其上应用强化学习意味着,RL第一次可以原生地操作语言天赋和关于世界的广泛知识。预训练的基础模型代表了RL可以发挥其魔力的强大基础。结果令人眼花缭乱——而我们才刚刚开始。

**RL遇见LLM**

将强化学习与大语言模型结合到底意味着什么?

一个关键洞察是,RL的核心概念可以直接且优雅地映射到LLM的世界。

在这种映射中,LLM本身就是智能体。环境是LLM运行的完整数字上下文,包括呈现给它的提示、其上下文窗口,以及它可以访问的任何工具和外部信息。模型的权重代表策略:它们决定智能体在面临环境的任何特定状态时如何行动。在这种情况下,行动意味着生成Token。

奖励信号和价值函数呢?为LLM定义奖励信号是事情变得有趣和复杂的地方。这个主题比任何其他主题都更能决定RL能在通向超级智能的道路上带我们走多远。

RL应用于LLM的第一个主要应用是人类反馈强化学习,或RLHF。AI研究的前沿已经发展到更尖端的RL和LLM结合方法,但RLHF代表了这一旅程的重要一步,它为LLM奖励信号的概念提供了具体说明。

RLHF是由DeepMind和OpenAI研究人员在2017年发明的。(作为旁注,鉴于今天竞争激烈和封闭的研究环境,值得记住的是OpenAI和DeepMind过去曾一起进行和发表基础研究。)但RLHF真正的亮相派对是ChatGPT。

当ChatGPT在2022年11月首次亮相时,它所基于的底层AI模型并不新;它已经公开可用了很多个月。ChatGPT成为一夜成功的原因是它平易近人、易于交谈、有帮助、善于遵循指示。使这成为可能的技术是RLHF。

简而言之,RLHF是一种调整LLM的风格和语调以与人类表达的偏好保持一致的方法,无论这些偏好是什么。RLHF最常用于使LLM"有帮助、无害且诚实",但同样可以用来使它们更调情、粗鲁、讽刺、进步或保守。

RLHF如何工作?

RLHF的关键成分是由人类受试者生成的"偏好数据"。具体来说,人类被要求考虑模型对给定提示的两个响应,并选择他们更喜欢的两个响应中的哪一个。

这种成对偏好数据用于训练一个单独的模型,称为奖励模型,它学会对主模型的任何给定输出的可取或不可取程度产生数值评级。

这就是RL发挥作用的地方。现在我们有了奖励信号,RL算法可以用来微调主模型——换句话说,RL智能体——使其生成最大化奖励模型分数的响应。通过这种方式,主模型开始融合人类生成的偏好数据中反映的风格和价值观。

回到奖励信号和LLM:在RLHF的情况下,正如我们所看到的,奖励信号直接来自人类和人类生成的偏好数据,然后被提炼到奖励模型中。

如果我们想使用RL给LLM强大的新能力,而不仅仅是遵守人类偏好,会怎样?

**下一个前沿**

过去一年AI最重要的发展是语言模型参与推理能力的提高。

AI模型"推理"到底意味着什么?

与使用下一个Token预测且没有规划或反思来响应提示的第一代LLM不同,推理模型在产生响应之前会花时间思考。这些模型通过生成"思维链"来思考,使它们能够系统地将给定任务分解为更小的步骤,然后按顺序完成每个步骤,以得出经过深思熟虑的答案。它们也知道如何以及何时使用外部工具——如计算器、代码解释器或互联网——来帮助解决问题。

世界上第一个推理模型,OpenAI的o1,在不到一年前首次亮相。几个月后,中国的DeepSeek因发布自己的推理模型R1而登上世界头条,该模型与o1接近平等,完全开放,并使用更少的计算训练。

赋予AI模型推理能力的秘密武器是强化学习——具体来说,是一种称为可验证奖励强化学习(RLVR)的RL方法。

像RLHF一样,RLVR需要采用基础模型并使用RL对其进行微调。但奖励信号的来源,以及因此AI获得的新能力类型,是完全不同的。

顾名思义,RLVR通过在答案可以客观验证的问题上训练AI模型来改进它们——最常见的是数学或编码任务。

首先,向模型呈现这样的任务——比如一个具有挑战性的数学问题——并提示生成思维链以解决问题。

然后正式确定模型产生的最终答案是正确还是错误。(如果是数学问题,最终答案可以通过计算器或更复杂的符号数学引擎运行;如果是编码任务,模型的代码可以在沙箱环境中执行。)

因为我们现在有了奖励信号——如果最终答案正确则为正,如果错误则为负——RL可以用来积极强化导致正确答案的思维链类型,并阻止那些导致错误答案的。

最终结果是一个在推理方面更有效的模型:即在准确处理复杂多步问题并得出正确解决方案方面。

这一代新的推理模型在国际数学奥林匹克等数学竞赛和ARC-AGI基准等逻辑测试中展示了惊人的能力。

那么——AGI就在眼前吗?

不一定。关于强化学习和语言模型的一些宏观问题仍未得到解答并且影响重大。这些问题在今天的人工智能世界中激发了热烈的辩论和广泛不同的观点。它们的答案将决定AI在未来几个月中变得多么强大。

**几个重大未解之谜**

可以验证并因此通过RL掌握的任务领域有多大?

今天最尖端的RL方法依赖于答案可以客观验证为对或错的问题。毫不奇怪,RL已经证明在产生在数学、编码、逻辑谜题和标准化测试方面世界级的AI系统方面表现出色。但是世界上许多没有容易验证答案的问题呢?

在一篇题为"推理器的问题"的挑衅性文章中,艾丹·麦克劳克林优雅地阐述了这一点:"记住推理模型使用RL,RL在具有清晰/频繁奖励的领域中效果最好,而大多数领域缺乏清晰/频繁奖励。"

麦克劳克林认为,人类实际关心的大多数领域都不容易验证,因此我们在使用RL使AI在这些领域超越人类方面将收效甚微:例如,提供职业建议、管理团队、理解社会趋势、写原创诗歌、投资初创公司。

值得考虑对这种批评的几个反驳。

第一个围绕迁移学习和泛化性的概念。迁移学习是指在一个领域训练的模型可以将这些学习转移到其他领域以改进的想法。RL迁移学习的支持者认为,即使推理模型只在数学和编码问题上训练,这也会赋予它们广泛的推理技能,这些技能将泛化到这些领域之外,并增强它们处理各种认知任务的能力。

"学会以结构化的方式思考,将主题分解为更小的子主题,理解因果关系,追踪不同想法之间的联系——这些技能应该在问题空间中广泛有用,"Yutori联合创始人/首席科学家、前Meta高级AI研究员德鲁夫·巴特拉说。"这与我们对人类教育的方法没有太大不同:我们教孩子基本的算术和读写能力,希望创造一个普遍知情和善于推理的人群。"

说得更强一点:如果你能解决数学,你就能解决任何问题。毕竟,任何可以用计算机完成的事情,最终都归结为数学。

这是一个有趣的假设。但迄今为止,没有确凿证据表明RL赋予LLM的推理能力能够泛化到数学和编码等容易验证的领域之外。AI近几个月来最重要的进展——无论从研究还是商业角度——恰好发生在这两个领域,这绝非巧合。

如果RL只能在容易验证的领域给AI模型超人力量,这代表了RL能在多大程度上推进AI能力前沿的严重限制。能够编写代码或做数学与人类一样好或更好的AI系统无疑是有价值的。但真正的通用智能包含的远不止这些。

让我们考虑这个话题的另一个反驳,不过:如果验证系统实际上可以为许多(甚至所有)领域构建,即使这些领域不像数学问题那样明确确定性和可检查,会怎样?

是否可能开发一个验证系统,能够可靠地确定一部小说、一项政府政策或一条职业建议是否"好"或"成功",因此应该得到积极强化?

这种思路很快把我们带入了近乎哲学的考虑。

在许多领域中,确定给定结果的"好坏"似乎涉及在道德或美学基础上不可简化的主观价值判断。例如,是否可能确定一个公共政策结果(比如减少联邦赤字)客观上优于另一个(比如扩大某个社会福利项目)?是否可能客观地识别一幅画或一首诗是否"好"?什么使艺术"好"?毕竟,美不是在观者眼中吗?

某些领域根本不具备要学习的"基本事实",而只有不同的价值观和需要权衡的取舍。

然而,即使在这样的领域中,另一种可能的方法存在。如果我们能够通过许多例子训练AI本能地识别"好"和"坏"的结果,即使我们无法正式定义它们,然后让那个AI作为我们的验证器会怎样?

正如RL初创公司Adaptive ML的CEO/联合创始人朱利安·劳内所说:"在弥合可验证到不可验证领域的差距时,我们本质上在寻找自然语言的编译器……但我们已经构建了这个编译器:那就是大语言模型。"

这种方法通常被称为AI反馈强化学习(RLAIF)或"LLM作为评判者"。一些研究人员认为这是使验证在更多领域中成为可能的关键。

但不清楚LLM作为评判者能带我们走多远。强化学习从可验证奖励首先在LLM中导致如此敏锐推理能力的原因是它依赖于形式验证方法:存在要发现和学习的正确和错误答案。

LLM作为评判者似乎将我们带回到更接近RLHF的制度,即AI模型可以被微调以内化训练数据中包含的任何偏好和价值判断,尽管它们可能是任意的。这只是将验证主观领域的问题推给训练数据,在那里它可能仍然像以往一样无法解决。

我们可以肯定地说:迄今为止,无论是OpenAI还是Anthropic还是任何其他前沿实验室都没有推出基于RL的系统,在写小说、为政府提供建议、创办公司或任何其他缺乏明显可验证性的活动中具有超人能力。

这并不意味着前沿实验室没有在这个问题上取得进展。事实上,就在上个月,领先的OpenAI研究员诺姆·布朗在X上分享:"我们开发了新技术,使LLM在难以验证的任务上表现得好很多。"

甚至有传言开始流传,OpenAI已经开发了所谓的"通用验证器",它可以在任何领域提供准确的奖励信号。很难想象这样的通用验证器会如何工作;没有具体细节被公开分享。

时间将告诉我们这些新技术有多强大。

**当我们大规模扩展RL时会发生什么?**

重要的是要记住,我们仍处于生成式AI中强化学习时代的最初阶段。

我们才刚刚开始扩展RL。与用于预训练基础模型的资源水平相比,投入强化学习的计算和训练数据总量仍然适中。

OpenAI最近演示中的这个图表说明了很多问题:

就在此刻,AI组织正在准备部署巨额资金,尽快扩大他们的强化学习努力。如上图所示,RL即将从AI训练预算的相对次要组成部分转变为主要焦点。

扩展RL包括什么?

"扩展RL时最重要的成分可能是环境——换句话说,是你释放AI探索和学习的设置,"斯坦福AI研究员安迪·张说。"除了环境的纯数量外,我们需要更高质量的环境,特别是随着模型能力的提高。这将需要深思熟虑地设计和实施环境,以确保多样性和适度难度,并避免奖励黑客攻击和损坏的任务。"

当xAI上个月推出其新前沿模型Grok 4时,它宣布已经将"超过一个数量级的计算"投入到强化学习中,比以前的模型多。

我们还有许多个数量级要走。

今天的RL驱动模型虽然强大,但面临缺点。上面讨论的难以验证领域的未解决挑战是其中之一。另一个批评被称为激发:假设强化学习实际上并没有赋予AI模型更大的智能,而只是激发了基础模型已经拥有的能力。RL面临的另一个障碍是与其他AI范式相比其固有的样本效率低下:RL智能体必须做大量工作才能接收一个反馈位。这种"奖励稀疏性"使RL在许多情况下无法实际部署。

规模可能是冲走所有这些担忧的潮汐波。

毕竟,如果有一个原则定义了近年来的前沿AI,那就是:没有什么比规模更重要。

当OpenAI在2019年到2023年间从GPT-2扩展到GPT-3再到GPT-4时,模型的性能增益和涌现能力令人惊叹,远远超过了社区的期望。

在每一步,怀疑论者都识别出这些模型的缺点和失败模式,声称它们揭示了技术范式的根本弱点,并预测进展很快就会撞墙。相反,下一代模型会突破这些缺点,大幅推进前沿,展示批评者此前认为不可能的新能力。

世界领先的AI玩家正在押注类似的模式将在强化学习中上演。

如果近期历史是任何指导,这是一个不错的赌注。

但重要的是要记住,AI"扩展定律"——预测AI性能随着数据、计算和模型规模增加而增加——在任何意义上都不是真正的定律。它们是经验观察,在一段时间内对预训练语言模型被证明是可靠和预测性的,并且已经在其他数据模态中得到初步证明。

没有正式保证扩展定律在AI中总是成立,也没有它们将持续多长时间,也没有它们的斜率将有多陡峭。

事实是,没有人确切知道当我们大规模扩展RL时会发生什么。但我们都即将找出答案。

**随着RL迅速接管AI世界,最引人注目的初创公司机会是什么?**

请关注我们关于这个话题的后续文章——或者随时直接联系讨论!

**展望未来**

强化学习代表了构建机器智能的引人注目的方法,有一个深刻的原因:它不受人类能力或想象力的束缚。

在大量标记数据上训练AI模型(监督学习)将使模型在理解这些标签方面表现出色,但其知识将限于人类准备的注释数据。在整个互联网上训练AI模型(自监督学习)将使模型在理解人类现有知识的总和方面表现出色,但不清楚这是否能使其产生超越人类已经提出的新见解。

强化学习不面临这样的天花板。它不从现有的人类数据中获取线索。RL智能体从第一原理开始,通过第一手经验为自己学习。

AlphaGo的"第37手"在这里作为典型例子。在与人类世界冠军李世石的一场比赛中,AlphaGo下了一步违反数千年累积的人类围棋策略智慧的棋。大多数观察者认为这是一个错误。相反,第37手被证明是一个绝妙的走法,给了AlphaGo对李世石的决定性优势。这一步教会了人类关于围棋游戏的新东西。它永远改变了人类专家下棋的方式。

人工智能的终极承诺不仅仅是复制人类智能。相反,它是解锁与我们自己根本不同的新形式智能——能够提出我们永远不会提出的想法、做出我们永远不会做出的发现、帮助我们以之前无法想象的方式看世界的智能形式。

我们还没有在生成式AI世界中看到"第37手时刻"。这可能是几周或几个月的事情——也可能永远不会发生。请关注这个空间。

Q&A

Q1:强化学习和传统机器学习方法有什么根本区别?

A:强化学习的核心是通过与环境互动和试错来学习,智能体根据奖励信号调整行为以最大化积极结果。与监督学习不同,RL智能体不需要人类提供直接指令或答案,而是通过自主探索学习最优策略,这使其能够发现人类可能没有想到的解决方案。

Q2:为什么说强化学习是实现通用人工智能的关键技术?

A:强化学习不受人类能力和现有知识的限制。与基于人类标注数据或互联网内容训练的方法不同,RL可以从第一原理出发,通过自主学习发现全新的策略和见解。正如AlphaGo的"第37手"展示的那样,RL系统能够产生超越人类智慧的创新解决方案,这正是实现真正通用智能所需要的突破能力。

Q3:当前强化学习在大语言模型应用中面临哪些主要挑战?

A:主要挑战包括验证域的限制问题——目前RL主要在数学、编程等容易验证答案的领域表现出色,但在创意写作、政策建议等主观性强的领域效果有限。此外还面临样本效率低下问题,即RL智能体需要大量试错才能获得有效反馈,以及如何为复杂的现实世界任务设计合适的奖励机制等技术难题。

来源:Forbes

0赞

好文章,需要你的鼓励

2025

08/12

08:04

分享

点赞

邮件订阅