科学家警告:AI垃圾内容正在严重破坏学术研究领域

一项由康奈尔大学和UCLA研究人员联合开展的研究发现,在四大主要学术数据库中,共存在约146,900条由AI生成的虚假引用。大语言模型如ChatGPT和Gemini存在"幻觉"问题,会生成听似合理但实为虚构的参考文献。研究团队分析了250万篇论文中的1.11亿条引用,发现自2023年大模型普及以来,虚假引用数量急剧上升。对此,学术预印本平台arXiv已宣布将封禁提交含幻觉引用内容的作者。

科学论文的价值建立在读者对其信息的信任之上。然而,一项由康奈尔大学和加州大学洛杉矶分校研究人员联合开展的新研究令人忧虑——他们在四大主要学术数据库收录的科学论文中,发现了多达146,900条由AI生成的虚假引用。

大语言模型的核心缺陷

Gemini、ChatGPT等大语言模型存在一个关键缺陷:它们倾向于生成听起来合理但实际上错误的信息,这一现象被称为"幻觉"。如果研究人员借助聊天机器人起草引用文献而未加以核实,模型可能会生成完全凭空捏造的参考资料。

尽管科学论文通常不为公众所熟知,但其背后的研究成果对我们的生活影响深远。从互联网到锂离子电池,许多改变世界的发明都源于一篇研究论文。然而,当科学家在论文中引用AI幻觉产生的虚假内容时,公众对学术研究质量的信任便会受到侵蚀。

粗制滥造的学术研究

研究团队分析了来自250万篇科学论文的1.11亿条参考文献,重点筛查那些无法与任何已发表文献匹配的引用标题。尽管部分不匹配情况仅源于拼写错误,但团队同样发现了大量AI幻觉造成的虚假引用。

事实上,早在聊天机器人兴起之前,就已有不诚信的研究人员伪造引用文献。为此,研究团队还对比了2023年之前——即聊天机器人尚未普及时期——发表的论文中,不匹配引用的出现频率。

"我们发现,在大语言模型被广泛采用之后,不存在的参考文献数量急剧上升。"论文作者如此写道。

研究团队还发现,这些错误引用分散在大量论文中,而非集中出现在少数几篇里。这表明问题已相当普遍——许多研究人员在使用AI生成的参考文献时,并未对其进行充分核实。

警示信号

威奇托州立大学管理学教授乌莎·哈利通过电子邮件向CNET表示,她将虚假引用的泛滥视为一个严重警告。

"虚假或AI生成的引用正在侵蚀学术记录的可信度,而学术记录恰恰是同行评审和知识积累的根基所在,"哈利说,"令人忧虑的是,这种质疑如今正从学术界内部、尤其是早期职业学者群体中滋生蔓延。"

研究人员发现虚假引用的四个数据库分别是:arXiv、bioRxiv、SSRN和PubMed Central。这些被称为"科学预印本库"的平台在学术研究领域发挥着举足轻重的作用。在论文正式发表于学术期刊之前,作者通常会将其上传至预印本库,以提升可见度,并让全球科学界能够即时获取。此次关于AI幻觉引用的研究论文,目前也托管于arXiv平台。

近期,arXiv已着手采取措施,遏制虚假引用的蔓延。该平台本周二宣布,将封禁提交含有AI幻觉引用、或含有任何未经严格核查的AI内容的作者账号。

"科学知识库正在被稀释。大量AI生成的内容要么存在明显错误,要么毫无意义,不过是一堆噪音,"arXiv科学总监斯坦因·西于尔兹松在今年2月接受CNET记者凯特琳·谢德拉维采访时表示,"这让人们更难发现真正有价值的研究,还可能将研究者引向错误的方向。"

Q&A

Q1:研究人员是如何发现科学论文中存在AI生成的虚假引用的?

A:研究团队分析了来自250万篇科学论文的1.11亿条参考文献,通过筛查无法与任何已发表文献匹配的引用标题来识别虚假引用。他们还将2023年后(大语言模型普及之后)的不匹配引用率与此前数据进行对比,发现虚假引用数量在大语言模型广泛采用后出现了明显的急剧上升。

Q2:大语言模型为什么会生成虚假的参考文献?

A:大语言模型存在一种被称为"幻觉"的固有缺陷,即倾向于生成听起来合理但实际上错误甚至完全捏造的信息。当研究人员使用ChatGPT、Gemini等聊天机器人辅助撰写论文引用时,如果不对生成内容进行人工核实,模型可能会输出根本不存在的参考文献,从而造成虚假引用混入学术论文的问题。

Q3:arXiv平台针对AI虚假引用问题采取了哪些措施?

A:arXiv近期宣布将对提交含有AI幻觉引用、或包含未经严格核查的AI内容的作者实施封禁。arXiv科学总监斯坦因·西于尔兹松表示,大量AI生成内容正在稀释科学知识库,不仅制造噪音、掩盖真正有价值的研究,还可能对研究者造成误导。

来源:cnet

0赞

好文章,需要你的鼓励

2026

05/22

07:41

分享

点赞

邮件订阅