OpenAI首席科学家MIT演讲：揭示 o1模型训练核心秘密

OpenAI的首席科学家Hyung Won Chung在MIT的一场演讲引发了不少思考。他揭示了一个培养通用人工智能（AGI）的关键策略：通过激励模型自主学习，才能让机器具备解决多任务的通用技能。

前不久，OpenAI的首席科学家Hyung Won Chung在MIT的一场演讲引发了不少思考。

他揭示了一个培养通用人工智能（AGI）的关键策略：通过激励模型自主学习，才能让机器具备解决多任务的通用技能。

他打了一个非常形象的比喻：大家都听过“授人以鱼，不如授人以渔”

但他更进一步，

提出：“要让他知道鱼有多美味，并且让他保持饥饿”，这样他就会主动学会钓鱼。

这不仅让他学会如何获取鱼，还会激发他学习更多相关的技能，比如阅读天气、了解鱼类习性等。最重要的是，有些技能是通用的，能够应用到其他任务中。

这个类比不仅适用于人类学习，也适用于AI系统。

通过激励机制，AI模型能够在应对不同任务时，自主学习和适应环境变化。

这就是未来AI发展的核心——弱激励学习。

通用智能：让机器学会更多“钓鱼”的方法

在演讲中，Hyung Won Chung详细阐述了通用智能和专用智能的区别。

专用智能是为了特定任务设计的，就像是教人只会一种“钓鱼”方法。

而通用智能则更类似于教会机器在任何环境下灵活运用多种技巧，能应对各种未知的场景。

这种灵活性让通用智能模型能够自适应，不再需要人为教授每个具体任务。

他提出，最好的方法不是直接教模型某个技能，而是通过弱激励机制，让模型在大量的数据和任务中，自己摸索和发展出解决问题的能力。

这种自主学习的能力，是未来通用智能的关键。

计算力：AI的“精神与时间之屋”

Hyung Won Chung还提到了计算能力在AI发展中的关键作用。

他引用了一个有趣的类比：大家还记得《龙珠》里的“精神与时间之屋”吗？在那里训练一年，外界只过了一天。

对于AI来说，计算资源的扩展，让它的“训练时间”大幅缩短——相当于几天时间，它就可以在某些领域超越人类专家。

如今，计算力的指数级增长，已经让AI可以轻松做到这点。

未来，我们可以通过更多的计算资源，让AI模型在短时间内学习海量任务，从而具备超越专家的能力。

涌现能力：机器“学会”人类没教的技能

Hyung Won Chung还提到了一个有趣的现象——涌现能力。

随着模型规模的扩大，AI模型往往会自发表现出一些没有被直接教授的能力。

比如，像GPT-4这样的模型，虽然没有专门教它数学和推理，但它却能自然地表现出这些能力。

这表明，随着模型规模的扩展，机器会自动学会解决新问题的能力，这也让人类对AI的潜力充满期待。

“鱼的美味”与激励学习

Hyung Won Chung特别强调了激励结构的设计。

他认为，未来的AI训练，需要给模型设计更复杂、更有深度的激励结构。

举个例子，现在的语言模型会产生“幻觉问题”，即在没有答案时也会编造出内容。

解决这个问题的办法，就是让模型学会在不确定的情况下回答“我不知道”。

通过调整激励结构，让模型不仅追求正确答案，还要学会在面对未知时保持谨慎，这样AI的可靠性和可信度才能提高。

正如他所说：“教会模型判断自己是否知道答案，远比教它一个特定的技能更为重要。”

这种激励学习的方式，正是让AI模型具备通用能力的关键。

扩展：不仅仅是计算力

通常我们谈到AI的“扩展”，指的是增加更多的计算力，让模型变得更强大。

但Hyung Won Chung提出了一种更深层的扩展理念。他认为，真正的扩展不是简单地增加计算资源，而是要重新设计模型架构，消除那些限制模型进一步提升的障碍。

通过更好的设计，让AI在数据和计算资源的增加中，自动适应并提升性能。

不断“去学习”：迎接AI的快速迭代

Hyung Won Chung还提到了一个非常有意思的观点——去学习。

他解释说，随着AI的发展，研究人员需要学会不断丢掉过去的认知，适应新模型带来的新能力。

每一次新模型的推出，都会颠覆我们对AI的认知。只有保持“去学习”的心态，才能跟上AI领域的快速变化。

深思：激励是最强的驱动力

正如Hyung Won Chung所言，最有效的学习方式是通过激励驱动，这不仅适用于人类，也同样适用于AI。

通过设计精妙的激励结构，模型能够在面对各种任务时自主探索、学习，并逐渐发展出通用能力。这种自主学习的过程让AI具备了更强的适应性和解决问题的能力。

作家赫尔曼·黑塞在《悉达多》中提到的一句话：

“智者追寻的不是永恒的真理，而是一个不断学习和成长的过程。”

对于AI来说，激励机制就像这个追寻的过程，它并不依赖于直接获得某个答案，而是在大量任务中不断寻找、摸索，最终通过自我学习变得更强大。

来源：AI Pioneer

0赞

好文章，需要你的鼓励

戴尔

工作站

AI PC

2025-08-20

AI PC 时代来临：戴尔科技如何重塑生产力边界

从日常办公到AI开发，戴尔用新一代AI PC回应算力与协作的双重挑战。

人工智能

注意力机制

推理能力

2025-08-20

麻省理工学院发现LLM“幻觉“新根源：注意力机制竟然会自相矛盾

麻省理工学院研究团队发现大语言模型"幻觉"现象的新根源：注意力机制存在固有缺陷。研究通过理论分析和实验证明，即使在理想条件下，注意力机制在处理多步推理任务时也会出现系统性错误。这一发现挑战了仅通过扩大模型规模就能解决所有问题的观点，为未来AI架构发展指明新方向，提醒用户在复杂推理任务中谨慎使用AI工具。