谷歌AI搜索综述准确率仅90%，每小时产生数万错误信息

《纽约时报》联合初创公司Oumi对谷歌AI概览进行测试，发现其准确率约为90%。这意味着每10个AI答案中就有1个错误，以谷歌的搜索量计算，每天产生数千万条错误信息。测试使用OpenAI的SimpleQA评估工具，包含4000多个可验证答案的问题。谷歌对此测试结果提出质疑，认为测试存在缺陷且不反映用户实际搜索情况。

当今在谷歌上查找信息意味着要面对AI搜索综述（AI Overviews），这个由Gemini驱动的搜索机器人会出现在搜索结果页面的顶部。AI搜索综述自2024年推出以来表现不佳，因其准确性参差不齐而招致用户不满，但它正在改进并通常能提供正确答案。然而，这个标准还很低。《纽约时报》的一项新分析试图评估AI搜索综述的准确性，发现它90%的时间是正确的。但反过来说，每10个AI答案中就有1个是错误的，对谷歌而言，这意味着每分钟都有数十万条错误信息发布出去。

《纽约时报》在一家名为Oumi的初创公司帮助下进行了这项分析，该公司本身也深度参与开发AI模型。该公司使用AI工具通过SimpleQA评估来测试AI搜索综述，这是一个用于评估像Gemini这样的生成式AI模型真实性的常用测试。SimpleQA由OpenAI在2024年发布，本质上是一个包含4000多个可验证答案问题的列表，可以输入AI进行测试。

Oumi去年开始运行测试时，Gemini 2.5仍是该公司的最佳模型。当时，基准测试显示准确率为85%。在Gemini 3更新后重新运行测试时，AI搜索综述正确回答了91%的问题。如果将这个错误率推算到所有谷歌搜索，AI搜索综述每天会产生数千万个错误答案。

报告包含了AI搜索综述出错的几个例子。当被问及鲍勃·马利故居变成博物馆的日期时，AI搜索综述引用了三个页面，其中两个根本没有讨论日期。最后一个是维基百科，列出了两个相互矛盾的年份，而AI搜索综述自信地选择了错误的一个。基准测试还要求模型提供马友友入选古典音乐名人堂的日期。虽然AI搜索综述引用了列出马友友入选信息的组织网站，但它声称不存在古典音乐名人堂这样的机构。

谷歌对这项测试并不满意。谷歌发言人内德·阿德里安斯告诉《纽约时报》，谷歌认为SimpleQA包含错误信息。其模型评估通常依赖于一个类似的测试，称为SimpleQA Verified，它使用经过更彻底审查的较小问题集。"这项研究存在严重漏洞，"阿德里安斯告诉《纽约时报》。"它不能反映人们在谷歌上的实际搜索情况。"

基准测试问题

评估新的AI模型有时感觉更像艺术而非科学，这正是问题的一部分。每家公司都有自己偏好的方式来展示模型的能力，生成式AI的非确定性特质使得验证任何事情都变得困难。这些机器人可以正确回答一个事实性问题，然后如果你立即重新运行查询就完全错过它。Oumi甚至使用AI工具来运行其评估，而那些模型也可能产生幻觉。

另一个复杂因素是AI搜索综述并非单一的整体模型。谷歌告诉Ars Technica，它为每个查询使用"合适的模型"。虽然AI搜索综述通过始终运行Gemini 3.1 Pro可以获得最佳答案，但这样做既慢又昂贵。为了在搜索页面上快速加载内容，综述在可能的情况下使用更快的Gemini Flash模型（这似乎是大部分时间的情况）。

谷歌对这份报告的回应很能说明问题。在AI真实性领域，90%的准确率甚至还算不错。谷歌最近发布的新模型版本基准测试显示，真实性测量在60%到80%的范围内——这些测试是在没有网络搜索等工具的情况下运行的。用更多数据（如互联网上丰富的人类知识）来支撑AI确实比裸模型本身更准确。然而，真相就在蓝色链接中的某个地方，而AI搜索综述鼓励人们接受其有时不准确的摘要，而不是手动检查那些来源。

虽然谷歌说《纽约时报》的结果与人们看到的不符，但你必须想知道该公司怎么可能知道这一点。你可能已经在AI搜索综述中看到过错误——我们都有，因为这就是生成式AI的工作方式。正如谷歌在每个综述底部提醒你的那样："AI可能会犯错误，所以请仔细核实回应。"

Q&A

Q1：谷歌AI搜索综述的准确率有多高？

A：根据《纽约时报》与Oumi公司的分析，谷歌AI搜索综述的准确率约为90%。这意味着每10个AI答案中就有1个是错误的，按照谷歌的搜索量计算，每天会产生数千万个错误答案。

Q2：为什么AI搜索综述会出现错误答案？

A：AI搜索综述出错的原因包括：引用的网页本身不包含相关信息、面对矛盾信息时做出错误选择、以及生成式AI本身的非确定性特质。此外，为了提高加载速度，谷歌经常使用较快但准确性可能较低的Gemini Flash模型。

Q3：如何避免被AI搜索综述的错误信息误导？

A：用户应该点击查看AI搜索综述引用的原始链接来核实信息，而不是仅仅接受AI提供的摘要。正如谷歌在每个综述底部提醒的："AI可能会犯错误，所以请仔细核实回应。"

来源：Arstechnica

0赞

好文章，需要你的鼓励

谷歌AI搜索综述准确率仅90%，每小时产生数万错误信息

来源：Arstechnica

2026

04/08

10:59

分享

点赞

Bookshop.org确认今年将推出Kobo电子书阅读器支持

WeWard新增"步行模式"：走够步数才能解锁应用

X将通过私信通知用户其互动帖子被社区笔记纠错

"慢社交"应用Roost：让消息像真鸟一样飞行

Truecaller与印度电信监管机构就反垃圾电话规则展开公开交锋

Block与46州达成4500万美元和解，涉Cash App欺诈纠纷

欧盟威胁对Meta开出罚款，剑指Facebook和Instagram上瘾性设计

Disney+考虑推出免费流媒体内容层级

HyperTexting：将开放网络变成类社交媒体信息流的新应用

TV Time关闭之际，创始人打造新追剧应用Bingers

Telegram短链域名t.me因制裁合规问题短暂下线后已恢复

Apple芯片现不可修复漏洞，或成iPhone越狱突破口

多伦多富人区AI监控计划引发争议

英伟达收购SchedMD引发开源AI调度软件中立性担忧

Claude Code源码泄露引发企业信任危机，安全治理担忧加剧

企业AI治理：CIO必须构建内置技术架构的管控体系

AI投资热潮驱动私人财富直投初创企业

Tubi成为首个接入ChatGPT的视频流媒体服务

仅28%的AI基础设施项目实现完全投资回报

UALink联盟发布2.0规格对抗英伟达GPU网络垄断

NFL与AWS合作推出AI驱动的NFL IQ平台

Anthropic收购生物科技初创公司Coefficient Bio布局医疗AI

如果您非常迫切的想了解IT领域最新产品与技术信息，那么订阅至顶网技术邮件将是您的最佳途径之一

三一集团：数字化是必选项，AI是生存项

因湃电池 × 达索系统：如何共创出一套电池产业最佳实践

AI走进真实世界之后：安全、健康与产业的新命题

CES 2026

关注官方公众号

关注官方微博

关注官方喜马拉雅

友情链接

业界热点: