一项来自哥伦比亚新闻评论 Tow 数字新闻中心的最新研究显示,尽管 AI 驱动的搜索引擎承诺将彻底改变我们获取信息的方式,但在正确引用新闻来源方面存在根本性缺陷。研究发现,生成式 AI 搜索工具不仅存在虚构引用的问题,还会削弱原创内容发布者的流量——这对新闻业和公众对新闻的信任度带来严重影响。
研究员 Klaudia Jazwińska 和 Aisvarya Chandrasekar 联合撰写的 CJR 文章于 3 月初发表,阐述了他们的研究见解。为了公平评估 8 个大语言模型,他们将来自 20 家出版商的 10 个文章片段分别输入每个 AI 搜索模型。随后,他们手动评估了全部 1600 个查询结果,以评估每个大语言模型搜索在以下方面的表现:
- 正确命名文章发布者 - 识别摘录片段所属的正确文章 - 准确引用文章 URL
根据各种可能结果的组合,使用下方的评分标准对每个结果进行评分。
结果按各自的大语言模型进行整理,生成的可视化图表显示了更多的红色和粉色,而不是绿色色调——显示出令人困惑的不准确倾向。根据下图显示,Perplexity 和 Perplexity Pro 返回的结果最为准确,而两个 Grok 模型和 Gemini 似乎难以返回正确答案。
AI 搜索引擎——越自信越不准确
最令人惊讶的发现之一是,这些被评估的 AI 搜索工具宁愿产生虚假结果,也不愿承认它们无法找到正确信息。
正如研究人员在他们的联合邮件回复中解释的那样:"聊天机器人通常不善于拒绝回答它们无法准确回答的问题,而是提供不正确或推测性的答案。生成式搜索工具经常捏造链接,并引用文章的联合发布版本和复制版本。"
不难理解这种生成式 AI 输出如何误导用户并制造可信度的假象——尤其是当信息完全是虚构的时候。
或许更令人震惊的是,各种 AI 聊天机器人的付费版本——基本上就是高级版本——表现比免费版本更差。
研究人员指出:"付费聊天机器人提供的错误答案比它们的免费版本更加自信。"
这对 AI 搜索引擎的可靠性提出了严重质疑,特别是对那些认为付费服务意味着能获得更高准确性和可信度的用户来说。
当涉及到 AI 驱动的搜索时,研究结果表明你付出的代价并不能获得相应的回报。
AI 搜索——虚构链接和缺乏透明度
除了单纯的事实错误之外,生成式 AI 搜索工具在引用方面也存在问题。研究发现,这些服务经常虚构链接或引用文章的发布副本,而不是直接链接到原始来源页面。
研究人员指出,这种技术倾向不仅模糊了信息的来源,还减少了原始发布者的流量。随着时间推移,页面流量的减少可能会影响独特页面浏览量、订阅者注册、广告收入和出版物相关性。
研究还强调了所有 AI 搜索引擎存在的一个令人担忧的趋势——普遍缺乏对用于生成响应的内容的透明度。
作者写道:"没有任何聊天机器人明确表示它们能否访问某些内容来回答问题;它们都营造出可信度的假象,即使它们的答案是不准确的。"
寻求 AI 搜索提供商的答案
鉴于这些发现的关键性,研究人员试图联系研究中涉及的 AI 搜索工具背后的公司。然而,回应寥寥无几。
"我们联系了报告中提到的所有 AI 公司。只有 OpenAI 和 Microsoft 做出了回应,虽然他们确认了我们的询问,但都没有针对我们提出的具体发现或关切做出回应。"
这些问题不仅仅停留在学术层面——它们对新闻业和公众获取可靠信息造成实际影响。AI 生成的摘要剥离了关键背景,同时未能对作者和发布者给予适当的信誉。这可能直接影响依赖网络流量获取收入的新闻机构。
研究人员回应道:"生成工具在不提供链接或信誉的情况下重新包装内容,切断了原始发布者的流量,影响了他们的可见度和收入。"
除了财务影响外,AI 工具的引用捏造和不准确归属对写作内容本身的信任构成重大威胁。如果用户无法验证来源,或者 AI 搜索引擎歪曲信息,虚假信息就更难以对抗。
Jazwińska 和 Chandrasekar 表示:"当 AI 工具错误归属或捏造引用时,它会破坏人们对技术本身及其引用的新闻的信任。这也增加了虚假信息的风险,因为这些工具即使在错误的时候听起来也很权威。"
AI 搜索成功需要改变什么
该研究强调了 AI 开发者迫切需要改善透明度、引用准确性以及对错误信息问题的响应能力。没有适当的问责机制,AI 驱动的搜索引擎可能会进一步削弱对书面内容和新闻业的信任,同时助长不准确或误导性内容的传播。
在此之前,用户应该谨慎对待 AI 生成的搜索结果,独立验证来源,并认识到这些工具远非完美。如果 AI 搜索要成为可靠的信息门户,它必须首先学习新闻业的基本规则——确保事实准确,并给予适当的信誉。
好文章,需要你的鼓励
Google 推出最新的 Gemini 2.5 Pro (实验版) AI 模型,并以罕见的速度向免费用户开放。该模型支持模拟推理,提高了准确性,并在 LMSYS 聊天机器人竞技场排行榜上名列前茅。免费用户可在网页上试用,但有使用限制,无法上传文件,且有未明确的token和使用次数限制。
Gartner 预测,大语言模型 (LLM) 提供商市场即将进入"灭绝"阶段。在竞争激烈的环境下,巨额资本投入成为主要挑战。预计到 2025 年,全球生成式 AI 支出将达到 6440 亿美元,较 2024 年增长 76%。专家认为,LLM 市场将经历类似云计算市场的整合,最终可能只剩少数几家主导者。
苹果公司推出新一代 AI 智能服务 Apple Intelligence,包括优先通知等多项功能。该服务现已覆盖欧盟用户和 Vision Pro 设备,并支持多种语言。新功能随 iOS 18.4 等系统更新推出,涵盖通知管理、图像生成和视频创作等方面,进一步提升用户体验。
OpenAI计划今年晚些时候向开发者社区发布一个"开放权重"模型,这是该公司自2019年以来的首次尝试。新模型将具备推理能力,类似于现有的o3-mini模型。这一战略转变旨在应对来自竞争对手的压力,同时为开发者提供更多定制和使用灵活性。虽然不完全开源,但这种方式可能有助于OpenAI在保持技术领先的同时,满足市场对更开放AI发展的需求。