一项来自哥伦比亚新闻评论 Tow 数字新闻中心的最新研究显示,尽管 AI 驱动的搜索引擎承诺将彻底改变我们获取信息的方式,但在正确引用新闻来源方面存在根本性缺陷。研究发现,生成式 AI 搜索工具不仅存在虚构引用的问题,还会削弱原创内容发布者的流量——这对新闻业和公众对新闻的信任度带来严重影响。
研究员 Klaudia Jazwińska 和 Aisvarya Chandrasekar 联合撰写的 CJR 文章于 3 月初发表,阐述了他们的研究见解。为了公平评估 8 个大语言模型,他们将来自 20 家出版商的 10 个文章片段分别输入每个 AI 搜索模型。随后,他们手动评估了全部 1600 个查询结果,以评估每个大语言模型搜索在以下方面的表现:
- 正确命名文章发布者 - 识别摘录片段所属的正确文章 - 准确引用文章 URL
根据各种可能结果的组合,使用下方的评分标准对每个结果进行评分。
结果按各自的大语言模型进行整理,生成的可视化图表显示了更多的红色和粉色,而不是绿色色调——显示出令人困惑的不准确倾向。根据下图显示,Perplexity 和 Perplexity Pro 返回的结果最为准确,而两个 Grok 模型和 Gemini 似乎难以返回正确答案。
AI 搜索引擎——越自信越不准确
最令人惊讶的发现之一是,这些被评估的 AI 搜索工具宁愿产生虚假结果,也不愿承认它们无法找到正确信息。
正如研究人员在他们的联合邮件回复中解释的那样:"聊天机器人通常不善于拒绝回答它们无法准确回答的问题,而是提供不正确或推测性的答案。生成式搜索工具经常捏造链接,并引用文章的联合发布版本和复制版本。"
不难理解这种生成式 AI 输出如何误导用户并制造可信度的假象——尤其是当信息完全是虚构的时候。
或许更令人震惊的是,各种 AI 聊天机器人的付费版本——基本上就是高级版本——表现比免费版本更差。
研究人员指出:"付费聊天机器人提供的错误答案比它们的免费版本更加自信。"
这对 AI 搜索引擎的可靠性提出了严重质疑,特别是对那些认为付费服务意味着能获得更高准确性和可信度的用户来说。
当涉及到 AI 驱动的搜索时,研究结果表明你付出的代价并不能获得相应的回报。
AI 搜索——虚构链接和缺乏透明度
除了单纯的事实错误之外,生成式 AI 搜索工具在引用方面也存在问题。研究发现,这些服务经常虚构链接或引用文章的发布副本,而不是直接链接到原始来源页面。
研究人员指出,这种技术倾向不仅模糊了信息的来源,还减少了原始发布者的流量。随着时间推移,页面流量的减少可能会影响独特页面浏览量、订阅者注册、广告收入和出版物相关性。
研究还强调了所有 AI 搜索引擎存在的一个令人担忧的趋势——普遍缺乏对用于生成响应的内容的透明度。
作者写道:"没有任何聊天机器人明确表示它们能否访问某些内容来回答问题;它们都营造出可信度的假象,即使它们的答案是不准确的。"
寻求 AI 搜索提供商的答案
鉴于这些发现的关键性,研究人员试图联系研究中涉及的 AI 搜索工具背后的公司。然而,回应寥寥无几。
"我们联系了报告中提到的所有 AI 公司。只有 OpenAI 和 Microsoft 做出了回应,虽然他们确认了我们的询问,但都没有针对我们提出的具体发现或关切做出回应。"
这些问题不仅仅停留在学术层面——它们对新闻业和公众获取可靠信息造成实际影响。AI 生成的摘要剥离了关键背景,同时未能对作者和发布者给予适当的信誉。这可能直接影响依赖网络流量获取收入的新闻机构。
研究人员回应道:"生成工具在不提供链接或信誉的情况下重新包装内容,切断了原始发布者的流量,影响了他们的可见度和收入。"
除了财务影响外,AI 工具的引用捏造和不准确归属对写作内容本身的信任构成重大威胁。如果用户无法验证来源,或者 AI 搜索引擎歪曲信息,虚假信息就更难以对抗。
Jazwińska 和 Chandrasekar 表示:"当 AI 工具错误归属或捏造引用时,它会破坏人们对技术本身及其引用的新闻的信任。这也增加了虚假信息的风险,因为这些工具即使在错误的时候听起来也很权威。"
AI 搜索成功需要改变什么
该研究强调了 AI 开发者迫切需要改善透明度、引用准确性以及对错误信息问题的响应能力。没有适当的问责机制,AI 驱动的搜索引擎可能会进一步削弱对书面内容和新闻业的信任,同时助长不准确或误导性内容的传播。
在此之前,用户应该谨慎对待 AI 生成的搜索结果,独立验证来源,并认识到这些工具远非完美。如果 AI 搜索要成为可靠的信息门户,它必须首先学习新闻业的基本规则——确保事实准确,并给予适当的信誉。
好文章,需要你的鼓励
穆拉蒂时隔18个月首次接受重大媒体采访,介绍其创立的Thinking Machines Lab正在开发的"交互模型"。该模型能以200毫秒间隔处理音频、文本和视频流,捕捉人类交流中的中断、修正和停顿。她还谈及OpenAI"政变周"经历,强调行业决策权过于集中的担忧,并回应了公司近期研究人员离职问题,表示这是初创实验室的正常波动。
STATE16研究院这篇综述发现,物理AI系统存在"静默失效"风险——AI以高度自信执行基于错误世界信息的动作,却不触发任何报警,并提出在AI输出与物理执行之间建立独立授权层的框架。
本期《Quick Charge》播客涵盖多个热点话题:特斯拉疑似试图删除FSD欺诈相关证据以规避巨额赔付;卡特彼勒持续推进建筑领域电气化布局;住宅太阳能30%税收抵免即将到期。此外,嘉宾Tom Pacheco就高压系统与电池技术培训展开探讨,强调电动车技术人才培养的紧迫性。节目同时提醒有意安装太阳能的用户尽快行动,可通过EnergySage平台比较多家安装商报价。
UIUC与微软联合研发的OpenWebRL框架让4B小模型仅凭400条初始数据,通过在真实网站上边做边学的强化学习方式,在网页智能体基准上超越了用27万条数据训练的竞争对手。