科学论文的价值建立在读者对其信息的信任之上。然而,一项由康奈尔大学和加州大学洛杉矶分校研究人员联合开展的新研究令人忧虑——他们在四大主要学术数据库收录的科学论文中,发现了多达146,900条由AI生成的虚假引用。
大语言模型的核心缺陷
Gemini、ChatGPT等大语言模型存在一个关键缺陷:它们倾向于生成听起来合理但实际上错误的信息,这一现象被称为"幻觉"。如果研究人员借助聊天机器人起草引用文献而未加以核实,模型可能会生成完全凭空捏造的参考资料。
尽管科学论文通常不为公众所熟知,但其背后的研究成果对我们的生活影响深远。从互联网到锂离子电池,许多改变世界的发明都源于一篇研究论文。然而,当科学家在论文中引用AI幻觉产生的虚假内容时,公众对学术研究质量的信任便会受到侵蚀。
粗制滥造的学术研究
研究团队分析了来自250万篇科学论文的1.11亿条参考文献,重点筛查那些无法与任何已发表文献匹配的引用标题。尽管部分不匹配情况仅源于拼写错误,但团队同样发现了大量AI幻觉造成的虚假引用。
事实上,早在聊天机器人兴起之前,就已有不诚信的研究人员伪造引用文献。为此,研究团队还对比了2023年之前——即聊天机器人尚未普及时期——发表的论文中,不匹配引用的出现频率。
"我们发现,在大语言模型被广泛采用之后,不存在的参考文献数量急剧上升。"论文作者如此写道。
研究团队还发现,这些错误引用分散在大量论文中,而非集中出现在少数几篇里。这表明问题已相当普遍——许多研究人员在使用AI生成的参考文献时,并未对其进行充分核实。
警示信号
威奇托州立大学管理学教授乌莎·哈利通过电子邮件向CNET表示,她将虚假引用的泛滥视为一个严重警告。
"虚假或AI生成的引用正在侵蚀学术记录的可信度,而学术记录恰恰是同行评审和知识积累的根基所在,"哈利说,"令人忧虑的是,这种质疑如今正从学术界内部、尤其是早期职业学者群体中滋生蔓延。"
研究人员发现虚假引用的四个数据库分别是:arXiv、bioRxiv、SSRN和PubMed Central。这些被称为"科学预印本库"的平台在学术研究领域发挥着举足轻重的作用。在论文正式发表于学术期刊之前,作者通常会将其上传至预印本库,以提升可见度,并让全球科学界能够即时获取。此次关于AI幻觉引用的研究论文,目前也托管于arXiv平台。
近期,arXiv已着手采取措施,遏制虚假引用的蔓延。该平台本周二宣布,将封禁提交含有AI幻觉引用、或含有任何未经严格核查的AI内容的作者账号。
"科学知识库正在被稀释。大量AI生成的内容要么存在明显错误,要么毫无意义,不过是一堆噪音,"arXiv科学总监斯坦因·西于尔兹松在今年2月接受CNET记者凯特琳·谢德拉维采访时表示,"这让人们更难发现真正有价值的研究,还可能将研究者引向错误的方向。"
Q&A
Q1:研究人员是如何发现科学论文中存在AI生成的虚假引用的?
A:研究团队分析了来自250万篇科学论文的1.11亿条参考文献,通过筛查无法与任何已发表文献匹配的引用标题来识别虚假引用。他们还将2023年后(大语言模型普及之后)的不匹配引用率与此前数据进行对比,发现虚假引用数量在大语言模型广泛采用后出现了明显的急剧上升。
Q2:大语言模型为什么会生成虚假的参考文献?
A:大语言模型存在一种被称为"幻觉"的固有缺陷,即倾向于生成听起来合理但实际上错误甚至完全捏造的信息。当研究人员使用ChatGPT、Gemini等聊天机器人辅助撰写论文引用时,如果不对生成内容进行人工核实,模型可能会输出根本不存在的参考文献,从而造成虚假引用混入学术论文的问题。
Q3:arXiv平台针对AI虚假引用问题采取了哪些措施?
A:arXiv近期宣布将对提交含有AI幻觉引用、或包含未经严格核查的AI内容的作者实施封禁。arXiv科学总监斯坦因·西于尔兹松表示,大量AI生成内容正在稀释科学知识库,不仅制造噪音、掩盖真正有价值的研究,还可能对研究者造成误导。
好文章,需要你的鼓励
短视频营销正成为品牌推广的重要方式,但寻找最佳片段并精准分发始终是一大难题。初创公司Clouted通过整合逾10万名自由创作者网络,结合AI技术自动完成视频剪辑与分发策略。其AI系统持续测试不同格式与渠道组合,让每次营销活动都比上一次更精准高效。该公司近日完成700万美元种子轮融资,由Slow Ventures领投,正朝着企业级营销基础设施市场迈进。
新加坡国立大学构建了首个视频隐喻理解基准ViMU,含588段视频与2352道题,测试16个主流AI模型均未超过50%,揭示AI在视频潜台词理解上的系统性短板。
本月初,Anthropic宣布购买300兆瓦算力的协议,锁定位于田纳西州孟菲斯附近的Colossus 1数据中心全部产能。据悉,Anthropic将在2029年5月前每月向xAI支付12.5亿美元,协议总价值超400亿美元。该交易细节源自SpaceX向SEC提交的S-1文件。xAI此举实质上是将闲置算力变现——近期Grok用户量下滑,大量服务器空闲,xAI由此转型为"新云服务商",向竞争对手出售计算资源。
浙江大学等机构联合提出PanoWorld,通过球面空间交叉注意力和57万张全景图训练数据,让AI能直接理解360度全景图的空间结构,在导航和视觉搜索任务中大幅超越现有方法。