OpenAI 推出 o3-pro,这是一款公司宣称迄今为止最强大的 AI 模型。
o3-pro 是 OpenAI 今年早些时候推出的 o3 推理模型的一个版本。与传统 AI 模型不同,推理模型能够分步解决问题,使其在物理、数学和编码等领域表现得更加稳定可靠。
OpenAI 表示,从本周二开始,o3-pro 将面向 ChatGPT Pro 和 Team 用户提供服务,并取代目前的 o1-pro 模型。企业和教育用户将在下周获得访问权限。o3-pro 今下午也已在 OpenAI 的开发者 API 中上线。
在 API 中,o3-pro 的定价为每百万输入 Token 收费 20 美元,每百万输出 Token 收费 80 美元。输入 Token 指送入模型的 Token,而输出 Token 指模型根据输入生成的 Token。
一百万个输入 Token 相当于大约 750,000 个单词,这比《战争与和平》略长。
OpenAI 在更新日志中写道:“在专家评估中,评审员在每个测试类别中均一致偏好 o3-pro,相比 o3 在科学、教育、编程、商务和写作协助等关键领域尤为突出。评审员还对 o3-pro 在清晰度、全面性、指令响应和准确性方面的一致高分给予认可。”
根据 OpenAI 的介绍,o3-pro 拥有使用工具的能力,能够进行网络搜索、文件分析、对视觉输入进行推理、使用 Python、利用内存个性化其响应等功能。不过,OpenAI 指出,由于这些功能,o3-pro 的响应通常需要比 o1-pro 更长的时间来完成。
o3-pro 也存在一些限制。目前,由于 OpenAI 正在解决一项“技术问题”,在 ChatGPT 中与该模型进行临时聊天的功能被禁用。o3-pro 不能生成图像,并且 OpenAI 的 AI 驱动工作区功能 Canvas 与 o3-pro 不兼容。
值得一提的是,根据 OpenAI 的内部测试,o3-pro 在流行的 AI 基准测试中取得了令人印象深刻的分数。在评估模型数学能力的 AIME 2024 测试中,o3-pro 的得分超过了 Google 表现最好的 AI 模型 Gemini 2.5 Pro。在 GPQA Diamond—一项针对博士级科学知识的测试中,o3-pro 也击败了 Anthropic 最近发布的 Claude 4 Opus。
好文章,需要你的鼓励
CoreWeave发布AI对象存储服务,采用本地对象传输加速器(LOTA)技术,可在全球范围内高速传输对象数据,无出口费用或请求交易分层费用。该技术通过智能代理在每个GPU节点上加速数据传输,提供高达每GPU 7 GBps的吞吐量,可扩展至数十万个GPU。服务采用三层自动定价模式,为客户的AI工作负载降低超过75%的存储成本。
IDEA研究院等机构联合开发了ToG-3智能推理系统,通过多智能体协作和双重进化机制,让AI能像人类专家团队一样动态思考和学习。该系统在复杂推理任务上表现优异,能用较小模型达到卓越性能,为AI技术的普及应用开辟了新路径,在教育、医疗、商业决策等领域具有广阔应用前景。
谷歌DeepMind与核聚变初创公司CFS合作,运用先进AI模型帮助管理和改进即将发布的Sparc反应堆。DeepMind开发了名为Torax的专用软件来模拟等离子体,结合强化学习等AI技术寻找最佳核聚变控制方式。核聚变被视为清洁能源的圣杯,可提供几乎无限的零碳排放能源。谷歌已投资CFS并承诺购买其200兆瓦电力。
上海人工智能实验室提出SPARK框架,创新性地让AI模型在学习推理的同时学会自我评判,通过回收训练数据建立策略与奖励的协同进化机制。实验显示,该方法在数学推理、奖励评判和通用能力上分别提升9.7%、12.1%和1.5%,且训练成本仅为传统方法的一半,展现出强大的泛化能力和自我反思能力。