OpenAI 推出 o3-pro,这是一款公司宣称迄今为止最强大的 AI 模型。
o3-pro 是 OpenAI 今年早些时候推出的 o3 推理模型的一个版本。与传统 AI 模型不同,推理模型能够分步解决问题,使其在物理、数学和编码等领域表现得更加稳定可靠。
OpenAI 表示,从本周二开始,o3-pro 将面向 ChatGPT Pro 和 Team 用户提供服务,并取代目前的 o1-pro 模型。企业和教育用户将在下周获得访问权限。o3-pro 今下午也已在 OpenAI 的开发者 API 中上线。
在 API 中,o3-pro 的定价为每百万输入 Token 收费 20 美元,每百万输出 Token 收费 80 美元。输入 Token 指送入模型的 Token,而输出 Token 指模型根据输入生成的 Token。
一百万个输入 Token 相当于大约 750,000 个单词,这比《战争与和平》略长。
OpenAI 在更新日志中写道:“在专家评估中,评审员在每个测试类别中均一致偏好 o3-pro,相比 o3 在科学、教育、编程、商务和写作协助等关键领域尤为突出。评审员还对 o3-pro 在清晰度、全面性、指令响应和准确性方面的一致高分给予认可。”
根据 OpenAI 的介绍,o3-pro 拥有使用工具的能力,能够进行网络搜索、文件分析、对视觉输入进行推理、使用 Python、利用内存个性化其响应等功能。不过,OpenAI 指出,由于这些功能,o3-pro 的响应通常需要比 o1-pro 更长的时间来完成。
o3-pro 也存在一些限制。目前,由于 OpenAI 正在解决一项“技术问题”,在 ChatGPT 中与该模型进行临时聊天的功能被禁用。o3-pro 不能生成图像,并且 OpenAI 的 AI 驱动工作区功能 Canvas 与 o3-pro 不兼容。
值得一提的是,根据 OpenAI 的内部测试,o3-pro 在流行的 AI 基准测试中取得了令人印象深刻的分数。在评估模型数学能力的 AIME 2024 测试中,o3-pro 的得分超过了 Google 表现最好的 AI 模型 Gemini 2.5 Pro。在 GPQA Diamond—一项针对博士级科学知识的测试中,o3-pro 也击败了 Anthropic 最近发布的 Claude 4 Opus。
好文章,需要你的鼓励
清华大学团队突破性开发"零样本量化"技术,让AI模型在不接触真实数据的情况下完成高效压缩,性能反超传统方法1.7%,为隐私保护时代的AI部署开辟新路径。
普林斯顿大学研究团队开发出"LLM经济学家"框架,首次让AI学会为虚拟社会制定税收政策。系统包含基于真实人口数据的工人AI和规划者AI两层,通过自然语言交互找到最优经济政策,甚至能模拟民主投票。实验显示AI制定的税收方案接近理论最优解,为AI参与社会治理提供了新路径。
K Prize是由Databricks和Perplexity联合创始人推出的AI编程挑战赛,首轮比赛结果显示,获胜者巴西工程师Eduardo Rocha de Andrade仅答对7.5%的题目就获得5万美元奖金。该测试基于GitHub真实问题,采用定时提交系统防止针对性训练,与SWE-Bench 75%的最高得分形成鲜明对比。创始人承诺向首个在该测试中得分超过90%的开源模型提供100万美元奖励。
南开大学研究团队提出了一种新的3D高斯泼溅重光照方法,通过在高斯原语上直接编码离散化SDF值,避免了传统方法需要额外SDF网络的问题。该方法设计了投影一致性损失来约束离散SDF样本,并采用球形初始化避免局部最优。实验表明,新方法在保持高质量重光照效果的同时,仅需现有方法20%的显存,显著提升了训练和渲染效率。