OpenAI 新推理 AI 模型幻觉问题更严重

OpenAI 最新推出的 o3 和 o4-mini 推理 AI 模型虽然在编程和数学等任务上表现出色，但幻觉率却远高于以往模型，引发了对准确性的严重担忧，亟待进一步研究。

OpenAI 最近发布的 o3 和 o4-mini AI 模型在许多方面均处于行业前沿。然而，这些新模型仍然存在幻觉现象，即编造信息——实际上，它们的幻觉现象比 OpenAI 早期的多个模型更加频繁。

幻觉问题已被证明是 AI 领域中最大且最难解决的问题之一，即便是在当今表现最好的系统中也存在这一问题。从历史上看，每一代新模型在幻觉问题上都有所改进，幻觉现象的频率较前一代有所降低。但 o3 和 o4-mini 似乎并非如此。

根据 OpenAI 内部测试，作为所谓推理模型的 o3 和 o4-mini 在幻觉方面的表现比该公司之前的推理模型（ o1、o1-mini 和 o3-mini ）以及 OpenAI 的传统“非推理”模型（例如 GPT-4o ）更为严重。

更令人担忧的是，ChatGPT 的开发者实际上并不清楚这种现象发生的原因。

在 o3 和 o4-mini 的技术报告中，OpenAI 写道，“需要更多研究”来理解为何在扩大推理模型规模的过程中幻觉问题变得更为严重。o3 和 o4-mini 在某些领域表现更佳，包括与编码和数学相关的任务。但由于它们“整体上提出了更多主张”，报告中指出，这导致它们既能提出“更多准确的主张”，也会产生“更多不准确/幻觉的主张”。

OpenAI 发现，o3 在 PersonQA 上对 33% 的问题产生幻觉，PersonQA 是该公司内部用于衡量模型对人物知识准确程度的基准测试。这大约是 OpenAI 之前推理模型 o1 和 o3-mini 幻觉率的两倍，它们分别得分为 16% 和 14.8%。o4-mini 在 PersonQA 上表现更差，幻觉率达到了 48%。

由非营利 AI 研究实验室 Transluce 进行的第三方测试也发现了一些证据，显示 o3 在回答问题时有编造其求解过程中所采取的行动的倾向。在一个例子中，Transluce 观察到 o3 声称它在 2021 年的 MacBook Pro 上“在 ChatGPT 之外”运行了代码，然后将运行结果数字复制到答案中。虽然 o3 可以使用一些工具，但它根本无法做到这一点。

Transluce 研究员及前 OpenAI 员工 Neil Chowdhury 在致 TechCrunch 的一封电邮中表示，“我们的假设是，用于 o 系列模型的强化学习可能会放大那些通常通过标准后训练流程得到缓解（但尚未完全消除）的问题。”

Transluce 联合创始人 Sarah Schwettmann 补充说，o3 的幻觉率可能会使其实际应用价值降低。

斯坦福兼职教授以及 upskilling 初创公司 Workera 的 CEO Kian Katanforoosh 告诉 TechCrunch，他的团队已在编码工作流程中测试 o3，并发现其表现超过了竞争对手。然而，Katanforoosh 表示，o3 往往会幻觉出损坏的网站链接，即模型会提供一个点击后无法正常使用的链接。

幻觉现象可能有助于模型在“思考”中产生有趣的想法和创造性，但它们也使得某些模型在那些对准确性要求极高的商业领域难以推广。例如，一家律师事务所很可能不会对在客户合同中插入大量事实错误的模型感到满意。

提高模型准确性的一种有前景的方法是赋予它们网页搜索能力。采用网页搜索功能的 OpenAI GPT-4o 在 SimpleQA 上达到了 90% 的准确率。理论上，搜索功能也有可能改善推理模型的幻觉率——至少在用户愿意将提示暴露给第三方搜索服务提供商的情况下。

如果推理模型规模的扩大真的会继续加剧幻觉问题，那么寻找解决方案的紧迫性将愈加明显。

OpenAI 发言人 Niko Felix 在致 TechCrunch 的一封电邮中表示，“解决我们所有模型中的幻觉问题是一项持续的研究领域，我们也在不断努力提高它们的准确性和可靠性。”

在过去一年中，随着改善传统 AI 模型的方法开始显示出边际效应递减的趋势，整个 AI 行业已转而关注推理模型。推理技术在无需海量计算资源和数据训练的情况下，提升了模型在各种任务中的表现。但看起来推理也可能会导致更多的幻觉现象，这无疑为 AI 发展带来了挑战。

来源：Techcrunch

0赞

好文章，需要你的鼓励

OpenAI 新推理 AI 模型幻觉问题更严重

来源：Techcrunch

2025

04/21

17:11

分享

点赞

联想集团混合式AI实践获权威肯定，CES期间获评“全球科技引领企业”

CES上杨元庆首谈AGI，碾压人类的叙事不会让AI更聪明

CES 2026 | 重大更新：NVIDIA DGX Spark开启“云边端”模式

Gmail新增Gemini驱动AI功能，智能优先级和摘要来袭

研究发现商业AI模型可完整还原《哈利·波特》原著内容

Razer在2026年CES展会推出全息AI伴侣项目

CES 2026：英伟达新架构亮相，AMD发布新芯片，Razer推出AI奇异产品

通过舞蹈认识LimX Dynamics的人形机器人Oli

谷歌为Gmail搜索引入AI概览功能并推出实验性AI智能收件箱

DuRoBo Krono：搭载AI助手的智能手机尺寸电子阅读器

OpenAI推出ChatGPT Health医疗问答功能

Anthropic寻求3500亿美元估值融资100亿美元

CW 创新奖：借助 AI 改变网络安全格局

Gemini 2.5 Flash 登陆 Gemini 应用，谷歌致力于改进 “动态思考”

如何微调 AI 提示以在工作中获得竞争优势

Hammerspace：Meta 使用的非结构化数据管理平台融资1亿美元，估值超5亿美元

Exaforce 融资7500万美元以扩展结合多模态 AI 的 agentic SOC 平台

谷歌“Ironwood” TPU Pod与其他AI超级计算机的对比

斯坦福大学出新举措：全面深入解析 AI 在心理健康领域的应用

Google 对决 OpenAI：争夺学生的 AI 战场

Together AI 的增强功能使得 AI 微调更快更便捷

agentic AI 在安全运作中可能带来的影响

如果您非常迫切的想了解IT领域最新产品与技术信息，那么订阅至顶网技术邮件将是您的最佳途径之一

CES 2026

2025 re:Invent ：亚马逊云科技把Agentic AI生态梳理明白了

电子竞技瞬息万变，Team Liquid的“数据+AI”制胜秘籍

中国移动呼和浩特数据中心：只有高效存力先行，AI才能跑出全力

关注官方公众号

关注官方微博

关注官方喜马拉雅

友情链接

业界热点: