OpenAI 推出 o3-pro,这是一款公司宣称迄今为止最强大的 AI 模型。
o3-pro 是 OpenAI 今年早些时候推出的 o3 推理模型的一个版本。与传统 AI 模型不同,推理模型能够分步解决问题,使其在物理、数学和编码等领域表现得更加稳定可靠。
OpenAI 表示,从本周二开始,o3-pro 将面向 ChatGPT Pro 和 Team 用户提供服务,并取代目前的 o1-pro 模型。企业和教育用户将在下周获得访问权限。o3-pro 今下午也已在 OpenAI 的开发者 API 中上线。
在 API 中,o3-pro 的定价为每百万输入 Token 收费 20 美元,每百万输出 Token 收费 80 美元。输入 Token 指送入模型的 Token,而输出 Token 指模型根据输入生成的 Token。
一百万个输入 Token 相当于大约 750,000 个单词,这比《战争与和平》略长。
OpenAI 在更新日志中写道:“在专家评估中,评审员在每个测试类别中均一致偏好 o3-pro,相比 o3 在科学、教育、编程、商务和写作协助等关键领域尤为突出。评审员还对 o3-pro 在清晰度、全面性、指令响应和准确性方面的一致高分给予认可。”
根据 OpenAI 的介绍,o3-pro 拥有使用工具的能力,能够进行网络搜索、文件分析、对视觉输入进行推理、使用 Python、利用内存个性化其响应等功能。不过,OpenAI 指出,由于这些功能,o3-pro 的响应通常需要比 o1-pro 更长的时间来完成。
o3-pro 也存在一些限制。目前,由于 OpenAI 正在解决一项“技术问题”,在 ChatGPT 中与该模型进行临时聊天的功能被禁用。o3-pro 不能生成图像,并且 OpenAI 的 AI 驱动工作区功能 Canvas 与 o3-pro 不兼容。
值得一提的是,根据 OpenAI 的内部测试,o3-pro 在流行的 AI 基准测试中取得了令人印象深刻的分数。在评估模型数学能力的 AIME 2024 测试中,o3-pro 的得分超过了 Google 表现最好的 AI 模型 Gemini 2.5 Pro。在 GPQA Diamond—一项针对博士级科学知识的测试中,o3-pro 也击败了 Anthropic 最近发布的 Claude 4 Opus。
好文章,需要你的鼓励
Allen AI研究所联合多家顶尖机构推出SAGE智能视频分析系统,首次实现类人化的"任意时长推理"能力。该系统能根据问题复杂程度灵活调整分析策略,配备六种智能工具进行协同分析,在处理10分钟以上视频时准确率提升8.2%。研究团队创建了包含1744个真实娱乐视频问题的SAGE-Bench评估平台,并采用创新的AI生成训练数据方法,为视频AI技术的实际应用开辟了新路径。
联想推出新一代NVMe存储解决方案DE6600系列,包含全闪存DE6600F和混合存储DE6600H两款型号。该系列产品延迟低于100微秒,支持多种连接协议,2U机架可容纳24块NVMe驱动器。容量可从367TB扩展至1.798PiB全闪存或7.741PiB混合配置,适用于AI、高性能计算、实时分析等场景,并配备双活控制器和XClarity统一管理平台。
中科院团队首次系统评估了AI视觉模型在文本压缩环境下的理解能力,发现虽然AI能准确识别压缩图像中的文字,但在理解深层含义、建立关联推理方面表现不佳。研究通过VTCBench测试系统揭示了AI存在"位置偏差"等问题,为视觉文本压缩技术的改进指明方向。