OpenAI 新推理 AI 模型幻觉问题更严重

OpenAI 最新推出的 o3 和 o4-mini 推理 AI 模型虽然在编程和数学等任务上表现出色，但幻觉率却远高于以往模型，引发了对准确性的严重担忧，亟待进一步研究。

OpenAI 最近发布的 o3 和 o4-mini AI 模型在许多方面均处于行业前沿。然而，这些新模型仍然存在幻觉现象，即编造信息——实际上，它们的幻觉现象比 OpenAI 早期的多个模型更加频繁。

幻觉问题已被证明是 AI 领域中最大且最难解决的问题之一，即便是在当今表现最好的系统中也存在这一问题。从历史上看，每一代新模型在幻觉问题上都有所改进，幻觉现象的频率较前一代有所降低。但 o3 和 o4-mini 似乎并非如此。

根据 OpenAI 内部测试，作为所谓推理模型的 o3 和 o4-mini 在幻觉方面的表现比该公司之前的推理模型（ o1、o1-mini 和 o3-mini ）以及 OpenAI 的传统“非推理”模型（例如 GPT-4o ）更为严重。

更令人担忧的是，ChatGPT 的开发者实际上并不清楚这种现象发生的原因。

在 o3 和 o4-mini 的技术报告中，OpenAI 写道，“需要更多研究”来理解为何在扩大推理模型规模的过程中幻觉问题变得更为严重。o3 和 o4-mini 在某些领域表现更佳，包括与编码和数学相关的任务。但由于它们“整体上提出了更多主张”，报告中指出，这导致它们既能提出“更多准确的主张”，也会产生“更多不准确/幻觉的主张”。

OpenAI 发现，o3 在 PersonQA 上对 33% 的问题产生幻觉，PersonQA 是该公司内部用于衡量模型对人物知识准确程度的基准测试。这大约是 OpenAI 之前推理模型 o1 和 o3-mini 幻觉率的两倍，它们分别得分为 16% 和 14.8%。o4-mini 在 PersonQA 上表现更差，幻觉率达到了 48%。

由非营利 AI 研究实验室 Transluce 进行的第三方测试也发现了一些证据，显示 o3 在回答问题时有编造其求解过程中所采取的行动的倾向。在一个例子中，Transluce 观察到 o3 声称它在 2021 年的 MacBook Pro 上“在 ChatGPT 之外”运行了代码，然后将运行结果数字复制到答案中。虽然 o3 可以使用一些工具，但它根本无法做到这一点。

Transluce 研究员及前 OpenAI 员工 Neil Chowdhury 在致 TechCrunch 的一封电邮中表示，“我们的假设是，用于 o 系列模型的强化学习可能会放大那些通常通过标准后训练流程得到缓解（但尚未完全消除）的问题。”

Transluce 联合创始人 Sarah Schwettmann 补充说，o3 的幻觉率可能会使其实际应用价值降低。

斯坦福兼职教授以及 upskilling 初创公司 Workera 的 CEO Kian Katanforoosh 告诉 TechCrunch，他的团队已在编码工作流程中测试 o3，并发现其表现超过了竞争对手。然而，Katanforoosh 表示，o3 往往会幻觉出损坏的网站链接，即模型会提供一个点击后无法正常使用的链接。

幻觉现象可能有助于模型在“思考”中产生有趣的想法和创造性，但它们也使得某些模型在那些对准确性要求极高的商业领域难以推广。例如，一家律师事务所很可能不会对在客户合同中插入大量事实错误的模型感到满意。

提高模型准确性的一种有前景的方法是赋予它们网页搜索能力。采用网页搜索功能的 OpenAI GPT-4o 在 SimpleQA 上达到了 90% 的准确率。理论上，搜索功能也有可能改善推理模型的幻觉率——至少在用户愿意将提示暴露给第三方搜索服务提供商的情况下。

如果推理模型规模的扩大真的会继续加剧幻觉问题，那么寻找解决方案的紧迫性将愈加明显。

OpenAI 发言人 Niko Felix 在致 TechCrunch 的一封电邮中表示，“解决我们所有模型中的幻觉问题是一项持续的研究领域，我们也在不断努力提高它们的准确性和可靠性。”

在过去一年中，随着改善传统 AI 模型的方法开始显示出边际效应递减的趋势，整个 AI 行业已转而关注推理模型。推理技术在无需海量计算资源和数据训练的情况下，提升了模型在各种任务中的表现。但看起来推理也可能会导致更多的幻觉现象，这无疑为 AI 发展带来了挑战。

来源：Techcrunch

0赞

好文章，需要你的鼓励

OpenAI 新推理 AI 模型幻觉问题更严重

来源：Techcrunch

2025

04/21

17:11

分享

点赞

一个案例看懂头部车企如何开展智能座舱AI测试实践

我在MWC上海，看到5G-A和AI的融合开始具像化了

AI如何重振电商客户信任度

Qumulo推出Stratus架构实现安全多租户环境

氛围编程诞生四个月后：软件开发正在发生根本性变革

拉美数据中心淘金热背后的重大风险

诺基亚发布自主网络架构平台

华为携手产业达成移动AI基础网共识，加速5G-A体验变现

北京联通携手华为拥抱AI技术革命，加速迈入智能时代

算力狂飙时代：新华三如何掀起底座革命？

AI应用核爆时代，智算网络如何“接招”？

训练成本低至惊人！MiniMax 开源Flash Attention机制的 M1 推理模型

CW 创新奖：借助 AI 改变网络安全格局

Gemini 2.5 Flash 登陆 Gemini 应用，谷歌致力于改进 “动态思考”

如何微调 AI 提示以在工作中获得竞争优势

Hammerspace：Meta 使用的非结构化数据管理平台融资1亿美元，估值超5亿美元

Exaforce 融资7500万美元以扩展结合多模态 AI 的 agentic SOC 平台

谷歌“Ironwood” TPU Pod与其他AI超级计算机的对比

斯坦福大学出新举措：全面深入解析 AI 在心理健康领域的应用

Google 对决 OpenAI：争夺学生的 AI 战场

Together AI 的增强功能使得 AI 微调更快更便捷

agentic AI 在安全运作中可能带来的影响

如果您非常迫切的想了解IT领域最新产品与技术信息，那么订阅至顶网技术邮件将是您的最佳途径之一

在欧洲之门马德里，我们再次见证了SAP激活企业增长的“飞轮”

IEEE专家委员胡凝：消解AI幻觉“阴影”，洞见“超级个体”价值锚点

生成式AI催生新物种，SaaS CRM掀起下半场变革战

芝加哥大学赵燕斌：我们做的是让AI看不见的“艺术”

关注官方公众号

关注官方微博

关注官方喜马拉雅

友情链接

业界热点: