OpenAI发布了一个全新的针对逻辑推理优化的大语言模型o1模型。官方宣称其推理能力相比较当前的大语言模型(GPT-4o)有了大幅提升。OpenAI宣称o1模型在编程竞赛问题(Codeforces)中排名第89百分位,在美国数学奥林匹克(AIME)的资格赛中位列美国前500名,并且在物理、 生物和化学问题的基准测试(GPQA)上超越了人类博士水平的准确率。

OpenAI o1模型简介
OpenAI o1模型的评测结果
OpenAI o1背后的技术解析
OpenAI隐藏了o1模型背后的原始思维链推理过程
OpenAI o1目前已经可以使用
o1模型是OpenAI训练的一个全新的在推理能力有大幅提升的模型。该模型通过“思维链”(chain of thought)模式训练模型,以实现高效的数据训练过程。
OpenAI的“o1”模型在数学推理方面有了大幅提升,各种数学、编程方面的评测都大幅超过当前已有的模型。以国际奥林匹克数学竞赛(International Mathematics Olympiad,IMO)为例,GPT-4o当前只能解决其中13%的问题,但是OpenAI o1可以解决83%的问题!提升十分明显!
但,当前o1模型本身最大的缺点是推理时间很长。下图展示了OpenAI o1模型技术与当前技术最大的区别。

在复杂推理任务方面,这是一个重大进步,代表了AI能力的新水平。基于这一突破,OpenAI将这个系列重新命名为OpenAI o1,并将计数器重置为1。
OpenAI “o1”在多个高难度智力测试中有卓越表现。OpenAI认为传统的GSM8K、MATH等大模型评测已经失去了区分模型逻辑推理的能力,因此,他们在更加真实的评测中测试了“o1”的水平。
首先,在美国数学邀请赛(American Invitational Mathematics Examination,AIME,美国面向中学生的邀请式竞赛,3个小时15道题)上,o1达到了接近满分的成绩,远超其他AI模型。当前,GPT-4o平均只能解决12%的问题,而OpenAI o1的表现:
单次采样:74%正确率
64次采样共识:83%正确率
1000次采样后重新排序:93%正确率
OpenAI o1的得分相当于全国前500名学生的水平,从这个内容看,OpenAI o1的采样过程也是可以通过改变采样次数来提升推理过程的模型!

在测试化学、物理和生物专业知识的GPQA diamond基准上,o1首次超越了人类专家。
此外,o1在视觉理解测试MMMU上接近人类专家水平(得分78.2%),并在MMLU的大多数子类别中(在57个子类别中的54个中超过了GPT-4o)超过了GPT-4。

上图橙色部分是OpenAI o1模型相比GPT-4o模型提升的部分,还是非常明显的!
这些结果展示了o1在特定问题解决能力上的突破,尽管并不意味着它在所有方面都超越人类专家。总体而言,o1的表现标志着AI在推理和专业知识应用方面的重大进展。
根据OpenAI官方的描述,o1模型的训练使用了一种新的AI训练方法,强调了思维链和强化学习的重要性,以及计算资源对性能的影响。
该模型训练过程使用了一种大规模强化学习算法,用以教模型如何从数据中学会用思维链思考。其核心是可以从较少的高质量数据中学习“思维链”的推理方法,它不仅让模型完成任务,还教模型如何改进思考过程。通过训练,模型学会了改进思维过程、尝试不同策略和识别错误。
学习过程的关键点:
识别和纠正错误:模型学会了发现自己的错误并进行修正。
问题分解:学会将复杂步骤分解成更简单的部分。
灵活尝试:当当前方法无效时,学会尝试不同的解决方案。
此外,在推理过程中,模型也需要模仿这个思考过程,实现“搜索”、“改进”解决方案,因此,这个模型与其它大语言模型最大的区别是推理的过程可能是一个“思考”-“改进”的过程,可以通过改变搜索空间以及推理时间来获得不一样的推理效果。
OpenAI官方给的对比显示,如果允许更长的推理时间,那么模型的表现越好,这样就暗示了模型本身可能存在一个“思考”-“改进”的过程!

此外,OpenAI的“o1”是一个多模态的大模型,在图片理解能力也有类似的提升!
如前所述,OpenAI o1模型在训练和推理过程都使用了思维链方式,在推理阶段,OpenAI提出了“隐藏思维链”的概念(a hidden chain of thought),隐藏思维链被视为一种监控AI模型内部思考过程的有效工具,可用于理解模型的推理过程并检测潜在问题。它提供了一种独特的机会来”读取”模型的”思维”,理解其思考过程。
但是,思维链监控有效性的前提条件是思维链必须忠实和可读。且模型需要自由表达其未经改动的思想。因此,不能在思维链上训练任何政策合规性或用户偏好。
OpenAI经权衡多方面因素(用户体验、竞争优势、监控选项),决定不向用户展示原始思维链。但是,作为补偿,对于o1模型系列,OpenAI会展示一个由模型生成的思维链摘要。
目前,ChatGPT Plus订阅用户已经可以使用该模型。不过,作为早期模型,尚未具备ChatGPT的许多实用功能,如网页浏览、文件和图像上传等。短期内,GPT-4o在许多常见任务中可能更加有能力。
好文章,需要你的鼓励
AI正在革命性地改变心脏疾病治疗领域。从设计微创心脏瓣膜手术到预防原理定位,机器学习和神经网络的洞察力推动了巨大进步,甚至可以构建新型移植解剖结构。数字孪生技术为个性化心血管护理提供持续预测管理。哈佛干细胞研究所的研究人员利用纳米材料和类似棉花糖机的设备,能在10分钟内制造心脏瓣膜,相比传统3周制造时间大幅缩短。这些突破性技术为每年4万名先天性心脏畸形儿童带来新希望。
这项由斯坦福大学和特拉维夫大学合作的研究揭示了语言模型内部存在三套协同工作的信息处理机制:位置机制、词汇机制和反射机制。研究发现,当文本复杂度增加时,传统的位置机制会变得不稳定,其他两种机制会自动补偿。这一发现解释了AI在长文本处理中的表现模式,为优化模型架构和提升AI可靠性提供了重要理论基础。
谷歌正在为搭载其内置信息娱乐系统的汽车推出谷歌地图实时车道引导功能,首先从极星4开始。该系统利用车辆前置摄像头和AI技术,分析车道标线和路标,为驾驶者提供更精确的车道指引和视听提示。该功能将在未来几个月内在美国和瑞典的极星4车型上推出,目前仅支持高速公路使用。
加州大学圣克鲁兹分校联合英伟达等机构开发出世界首个医学离散扩散模型MeDiM,实现了医学影像与报告的双向生成。该系统能根据临床报告生成对应影像,也能看图写报告,甚至可同时生成匹配的影像-报告对。在多项评估中表现优异,为医学教育、临床研究和辅助诊疗提供了强有力的AI工具。