重磅！OpenAI发布最强推理模型“OpenAI o1”(代号草莓），大模型逻辑推理能力大幅提升，官方宣称超越部分人类博士水平！

OpenAI发布了新的大语言模型o1，专注于逻辑推理优化，其推理能力在多个领域超越现有模型。o1模型通过思维链模式训练，提升了数学、编程、科学问题解决能力。在AIME和GPQA测试中表现优异，超越人类专家水平。o1模型使用大规模强化学习算法，强调思维链和强化学习的重要性。OpenAI未向用户展示原始思维链，但提供摘要。o1模型目前可供ChatGPT Plus订阅用户使用。

OpenAI发布了一个全新的针对逻辑推理优化的大语言模型o1模型。官方宣称其推理能力相比较当前的大语言模型（GPT-4o）有了大幅提升。OpenAI宣称o1模型在编程竞赛问题（Codeforces）中排名第89百分位，在美国数学奥林匹克（AIME）的资格赛中位列美国前500名，并且在物理、生物和化学问题的基准测试（GPQA）上超越了人类博士水平的准确率。

重磅！OpenAI发布最强推理模型“OpenAI o1”(代号草莓），大模型逻辑推理能力大幅提升，官方宣称超越部分人类博士水平！

OpenAI o1模型简介
OpenAI o1模型的评测结果
OpenAI o1背后的技术解析
OpenAI隐藏了o1模型背后的原始思维链推理过程
OpenAI o1目前已经可以使用

OpenAI o1模型简介

o1模型是OpenAI训练的一个全新的在推理能力有大幅提升的模型。该模型通过“思维链”（chain of thought）模式训练模型，以实现高效的数据训练过程。

OpenAI的“o1”模型在数学推理方面有了大幅提升，各种数学、编程方面的评测都大幅超过当前已有的模型。以国际奥林匹克数学竞赛（International Mathematics Olympiad，IMO）为例，GPT-4o当前只能解决其中13%的问题，但是OpenAI o1可以解决83%的问题！提升十分明显！

但，当前o1模型本身最大的缺点是推理时间很长。下图展示了OpenAI o1模型技术与当前技术最大的区别。

在复杂推理任务方面，这是一个重大进步，代表了AI能力的新水平。基于这一突破，OpenAI将这个系列重新命名为OpenAI o1，并将计数器重置为1。

OpenAI o1模型的评测结果

OpenAI “o1”在多个高难度智力测试中有卓越表现。OpenAI认为传统的GSM8K、MATH等大模型评测已经失去了区分模型逻辑推理的能力，因此，他们在更加真实的评测中测试了“o1”的水平。

首先，在美国数学邀请赛（American Invitational Mathematics Examination，AIME，美国面向中学生的邀请式竞赛，3个小时15道题）上，o1达到了接近满分的成绩，远超其他AI模型。当前，GPT-4o平均只能解决12%的问题，而OpenAI o1的表现：

单次采样：74%正确率
64次采样共识：83%正确率
1000次采样后重新排序：93%正确率

OpenAI o1的得分相当于全国前500名学生的水平，从这个内容看，OpenAI o1的采样过程也是可以通过改变采样次数来提升推理过程的模型！

在测试化学、物理和生物专业知识的GPQA diamond基准上，o1首次超越了人类专家。

此外，o1在视觉理解测试MMMU上接近人类专家水平（得分78.2%），并在MMLU的大多数子类别中（在57个子类别中的54个中超过了GPT-4o）超过了GPT-4。

上图橙色部分是OpenAI o1模型相比GPT-4o模型提升的部分，还是非常明显的！

这些结果展示了o1在特定问题解决能力上的突破，尽管并不意味着它在所有方面都超越人类专家。总体而言，o1的表现标志着AI在推理和专业知识应用方面的重大进展。

OpenAI o1背后的技术解析

根据OpenAI官方的描述，o1模型的训练使用了一种新的AI训练方法，强调了思维链和强化学习的重要性，以及计算资源对性能的影响。

该模型训练过程使用了一种大规模强化学习算法，用以教模型如何从数据中学会用思维链思考。其核心是可以从较少的高质量数据中学习“思维链”的推理方法，它不仅让模型完成任务，还教模型如何改进思考过程。通过训练，模型学会了改进思维过程、尝试不同策略和识别错误。

学习过程的关键点：

识别和纠正错误：模型学会了发现自己的错误并进行修正。
问题分解：学会将复杂步骤分解成更简单的部分。
灵活尝试：当当前方法无效时，学会尝试不同的解决方案。

此外，在推理过程中，模型也需要模仿这个思考过程，实现“搜索”、“改进”解决方案，因此，这个模型与其它大语言模型最大的区别是推理的过程可能是一个“思考”-“改进”的过程，可以通过改变搜索空间以及推理时间来获得不一样的推理效果。

OpenAI官方给的对比显示，如果允许更长的推理时间，那么模型的表现越好，这样就暗示了模型本身可能存在一个“思考”-“改进”的过程！

训练和推理时间的增加都能让OpenAI o1模型的效果显著提升

此外，OpenAI的“o1”是一个多模态的大模型，在图片理解能力也有类似的提升！

OpenAI隐藏了o1模型背后的原始思维链推理过程

如前所述，OpenAI o1模型在训练和推理过程都使用了思维链方式，在推理阶段，OpenAI提出了“隐藏思维链”的概念（a hidden chain of thought），隐藏思维链被视为一种监控AI模型内部思考过程的有效工具，可用于理解模型的推理过程并检测潜在问题。它提供了一种独特的机会来”读取”模型的”思维”，理解其思考过程。

但是，思维链监控有效性的前提条件是思维链必须忠实和可读。且模型需要自由表达其未经改动的思想。因此，不能在思维链上训练任何政策合规性或用户偏好。

OpenAI经权衡多方面因素（用户体验、竞争优势、监控选项），决定不向用户展示原始思维链。但是，作为补偿，对于o1模型系列，OpenAI会展示一个由模型生成的思维链摘要。

OpenAI o1目前已经可以使用

目前，ChatGPT Plus订阅用户已经可以使用该模型。不过，作为早期模型，尚未具备ChatGPT的许多实用功能，如网页浏览、文件和图像上传等。短期内，GPT-4o在许多常见任务中可能更加有能力。

来源：DataLearner

0赞

好文章，需要你的鼓励

重磅！OpenAI发布最强推理模型“OpenAI o1”(代号草莓），大模型逻辑推理能力大幅提升，官方宣称超越部分人类博士水平！

OpenAI o1模型简介

OpenAI o1模型的评测结果

OpenAI o1背后的技术解析

OpenAI隐藏了o1模型背后的原始思维链推理过程

OpenAI o1目前已经可以使用

来源：DataLearner

人工智能

自然语言处理

优化模型

Nextdoor推出AI推荐功能重新设计应用界面

多模态推理

混合强化学习

视觉推理优化

Skywork AI的多模态推理新突破：让AI像人类一样“慢慢思考“解决复杂问题

人工智能

医学成像

大规模数据分析

英国生物银行完成NHS全身成像项目创纪录成就

人工智能

图像生成

技术评估

北京大学团队首次全面评估GPT-4o图像生成能力：AI绘画竞赛中的新冠军诞生

2024

09/14

23:04

分享

点赞

DataLearner

关注数据科学关注科技行业关注人工智能关注一切促进人类生活美好的新技术

关注官方公众号

关注官方微博

关注官方喜马拉雅

友情链接

业界热点:

重磅！OpenAI发布最强推理模型“OpenAI o1”(代号草莓），大模型逻辑推理能力大幅提升，官方宣称超越部分人类博士水平！

OpenAI o1模型简介

OpenAI o1模型的评测结果

OpenAI o1背后的技术解析

OpenAI隐藏了o1模型背后的原始思维链推理过程

OpenAI o1目前已经可以使用

来源：DataLearner

2024

09/14

23:04

分享

点赞

DataLearner

关注数据科学 关注科技行业 关注人工智能 关注一切促进人类生活美好的新技术

关注官方公众号

关注官方微博

关注官方喜马拉雅

友情链接

业界热点:

关注数据科学关注科技行业关注人工智能关注一切促进人类生活美好的新技术