当今在谷歌上查找信息意味着要面对AI搜索综述(AI Overviews),这个由Gemini驱动的搜索机器人会出现在搜索结果页面的顶部。AI搜索综述自2024年推出以来表现不佳,因其准确性参差不齐而招致用户不满,但它正在改进并通常能提供正确答案。然而,这个标准还很低。《纽约时报》的一项新分析试图评估AI搜索综述的准确性,发现它90%的时间是正确的。但反过来说,每10个AI答案中就有1个是错误的,对谷歌而言,这意味着每分钟都有数十万条错误信息发布出去。
《纽约时报》在一家名为Oumi的初创公司帮助下进行了这项分析,该公司本身也深度参与开发AI模型。该公司使用AI工具通过SimpleQA评估来测试AI搜索综述,这是一个用于评估像Gemini这样的生成式AI模型真实性的常用测试。SimpleQA由OpenAI在2024年发布,本质上是一个包含4000多个可验证答案问题的列表,可以输入AI进行测试。
Oumi去年开始运行测试时,Gemini 2.5仍是该公司的最佳模型。当时,基准测试显示准确率为85%。在Gemini 3更新后重新运行测试时,AI搜索综述正确回答了91%的问题。如果将这个错误率推算到所有谷歌搜索,AI搜索综述每天会产生数千万个错误答案。
报告包含了AI搜索综述出错的几个例子。当被问及鲍勃·马利故居变成博物馆的日期时,AI搜索综述引用了三个页面,其中两个根本没有讨论日期。最后一个是维基百科,列出了两个相互矛盾的年份,而AI搜索综述自信地选择了错误的一个。基准测试还要求模型提供马友友入选古典音乐名人堂的日期。虽然AI搜索综述引用了列出马友友入选信息的组织网站,但它声称不存在古典音乐名人堂这样的机构。
谷歌对这项测试并不满意。谷歌发言人内德·阿德里安斯告诉《纽约时报》,谷歌认为SimpleQA包含错误信息。其模型评估通常依赖于一个类似的测试,称为SimpleQA Verified,它使用经过更彻底审查的较小问题集。"这项研究存在严重漏洞,"阿德里安斯告诉《纽约时报》。"它不能反映人们在谷歌上的实际搜索情况。"
基准测试问题
评估新的AI模型有时感觉更像艺术而非科学,这正是问题的一部分。每家公司都有自己偏好的方式来展示模型的能力,生成式AI的非确定性特质使得验证任何事情都变得困难。这些机器人可以正确回答一个事实性问题,然后如果你立即重新运行查询就完全错过它。Oumi甚至使用AI工具来运行其评估,而那些模型也可能产生幻觉。
另一个复杂因素是AI搜索综述并非单一的整体模型。谷歌告诉Ars Technica,它为每个查询使用"合适的模型"。虽然AI搜索综述通过始终运行Gemini 3.1 Pro可以获得最佳答案,但这样做既慢又昂贵。为了在搜索页面上快速加载内容,综述在可能的情况下使用更快的Gemini Flash模型(这似乎是大部分时间的情况)。
谷歌对这份报告的回应很能说明问题。在AI真实性领域,90%的准确率甚至还算不错。谷歌最近发布的新模型版本基准测试显示,真实性测量在60%到80%的范围内——这些测试是在没有网络搜索等工具的情况下运行的。用更多数据(如互联网上丰富的人类知识)来支撑AI确实比裸模型本身更准确。然而,真相就在蓝色链接中的某个地方,而AI搜索综述鼓励人们接受其有时不准确的摘要,而不是手动检查那些来源。
虽然谷歌说《纽约时报》的结果与人们看到的不符,但你必须想知道该公司怎么可能知道这一点。你可能已经在AI搜索综述中看到过错误——我们都有,因为这就是生成式AI的工作方式。正如谷歌在每个综述底部提醒你的那样:"AI可能会犯错误,所以请仔细核实回应。"
Q&A
Q1:谷歌AI搜索综述的准确率有多高?
A:根据《纽约时报》与Oumi公司的分析,谷歌AI搜索综述的准确率约为90%。这意味着每10个AI答案中就有1个是错误的,按照谷歌的搜索量计算,每天会产生数千万个错误答案。
Q2:为什么AI搜索综述会出现错误答案?
A:AI搜索综述出错的原因包括:引用的网页本身不包含相关信息、面对矛盾信息时做出错误选择、以及生成式AI本身的非确定性特质。此外,为了提高加载速度,谷歌经常使用较快但准确性可能较低的Gemini Flash模型。
Q3:如何避免被AI搜索综述的错误信息误导?
A:用户应该点击查看AI搜索综述引用的原始链接来核实信息,而不是仅仅接受AI提供的摘要。正如谷歌在每个综述底部提醒的:"AI可能会犯错误,所以请仔细核实回应。"
好文章,需要你的鼓励
企业AI搜索公司Glean宣布年度经常性收入(ARR)达3亿美元,较15个月前的1亿美元增长三倍。尽管谷歌、微软、OpenAI等科技巨头纷纷入局企业AI搜索市场,Glean凭借"上下文图谱"技术深度理解企业业务需求,并帮助客户显著降低AI计算成本。该公司提供按用量计费和混合定价两种模式,客户涵盖Databricks、Reddit、Pinterest及三星等企业。Glean上轮融资后估值达72亿美元。
香港中文大学与MiniMax提出ClaimDiff-RL框架,将图像描述的AI训练从整体打分升级为逐条核查,有效解决了传统方式导致AI"少说保平安"的问题,同时在多项基准测试上超越Gemini-3-Pro-Preview。
杰夫·贝索斯旗下的蓝色起源公司在佛罗里达卡纳维拉尔角进行静态点火测试时,新格伦重型火箭发生爆炸。这是美国历史上最大规模的火箭爆炸之一,也是蓝色起源公司遭遇的最严重失败。所有人员安全,但该事故可能导致新格伦火箭项目长期暂停。此前该火箭已成功完成三次发射,并实现了助推器回收和重复使用。
ParaVT是一个由南洋理工等多校联合提出的并行视频工具调用框架,通过让AI同时分析多段视频并引入PARA-GRPO算法解决训练中的格式崩溃与工具跳过问题,在六项长视频理解测试中平均提升约7.9%。