科学论文的价值建立在读者对其信息的信任之上。然而,一项由康奈尔大学和加州大学洛杉矶分校研究人员联合开展的新研究令人忧虑——他们在四大主要学术数据库收录的科学论文中,发现了多达146,900条由AI生成的虚假引用。
大语言模型的核心缺陷
Gemini、ChatGPT等大语言模型存在一个关键缺陷:它们倾向于生成听起来合理但实际上错误的信息,这一现象被称为"幻觉"。如果研究人员借助聊天机器人起草引用文献而未加以核实,模型可能会生成完全凭空捏造的参考资料。
尽管科学论文通常不为公众所熟知,但其背后的研究成果对我们的生活影响深远。从互联网到锂离子电池,许多改变世界的发明都源于一篇研究论文。然而,当科学家在论文中引用AI幻觉产生的虚假内容时,公众对学术研究质量的信任便会受到侵蚀。
粗制滥造的学术研究
研究团队分析了来自250万篇科学论文的1.11亿条参考文献,重点筛查那些无法与任何已发表文献匹配的引用标题。尽管部分不匹配情况仅源于拼写错误,但团队同样发现了大量AI幻觉造成的虚假引用。
事实上,早在聊天机器人兴起之前,就已有不诚信的研究人员伪造引用文献。为此,研究团队还对比了2023年之前——即聊天机器人尚未普及时期——发表的论文中,不匹配引用的出现频率。
"我们发现,在大语言模型被广泛采用之后,不存在的参考文献数量急剧上升。"论文作者如此写道。
研究团队还发现,这些错误引用分散在大量论文中,而非集中出现在少数几篇里。这表明问题已相当普遍——许多研究人员在使用AI生成的参考文献时,并未对其进行充分核实。
警示信号
威奇托州立大学管理学教授乌莎·哈利通过电子邮件向CNET表示,她将虚假引用的泛滥视为一个严重警告。
"虚假或AI生成的引用正在侵蚀学术记录的可信度,而学术记录恰恰是同行评审和知识积累的根基所在,"哈利说,"令人忧虑的是,这种质疑如今正从学术界内部、尤其是早期职业学者群体中滋生蔓延。"
研究人员发现虚假引用的四个数据库分别是:arXiv、bioRxiv、SSRN和PubMed Central。这些被称为"科学预印本库"的平台在学术研究领域发挥着举足轻重的作用。在论文正式发表于学术期刊之前,作者通常会将其上传至预印本库,以提升可见度,并让全球科学界能够即时获取。此次关于AI幻觉引用的研究论文,目前也托管于arXiv平台。
近期,arXiv已着手采取措施,遏制虚假引用的蔓延。该平台本周二宣布,将封禁提交含有AI幻觉引用、或含有任何未经严格核查的AI内容的作者账号。
"科学知识库正在被稀释。大量AI生成的内容要么存在明显错误,要么毫无意义,不过是一堆噪音,"arXiv科学总监斯坦因·西于尔兹松在今年2月接受CNET记者凯特琳·谢德拉维采访时表示,"这让人们更难发现真正有价值的研究,还可能将研究者引向错误的方向。"
Q&A
Q1:研究人员是如何发现科学论文中存在AI生成的虚假引用的?
A:研究团队分析了来自250万篇科学论文的1.11亿条参考文献,通过筛查无法与任何已发表文献匹配的引用标题来识别虚假引用。他们还将2023年后(大语言模型普及之后)的不匹配引用率与此前数据进行对比,发现虚假引用数量在大语言模型广泛采用后出现了明显的急剧上升。
Q2:大语言模型为什么会生成虚假的参考文献?
A:大语言模型存在一种被称为"幻觉"的固有缺陷,即倾向于生成听起来合理但实际上错误甚至完全捏造的信息。当研究人员使用ChatGPT、Gemini等聊天机器人辅助撰写论文引用时,如果不对生成内容进行人工核实,模型可能会输出根本不存在的参考文献,从而造成虚假引用混入学术论文的问题。
Q3:arXiv平台针对AI虚假引用问题采取了哪些措施?
A:arXiv近期宣布将对提交含有AI幻觉引用、或包含未经严格核查的AI内容的作者实施封禁。arXiv科学总监斯坦因·西于尔兹松表示,大量AI生成内容正在稀释科学知识库,不仅制造噪音、掩盖真正有价值的研究,还可能对研究者造成误导。
好文章,需要你的鼓励
仿人机器人与自动驾驶汽车在区域架构、功能安全及雷达传感方面高度相似。多分辨率摄像头组合可更好地模拟人类视野,兼顾广角低保真与局部高精度需求。自然运动需实时计算正逆运动学、距离与深度,同时须兼顾功耗效率。当前视觉与基础操控技术最为成熟,而触觉、全身协调及非结构化环境中的移动能力仍是主要挑战。业界正借鉴自动驾驶经验,加速推进仿人机器人的规模化落地。
这项研究提出Epi2Diff方法,通过将大型推理模型的解题思考过程拆解为认知片段序列,提取过程特征预测考题对人类的难度,在四个真实考试数据集上超越了所有对比基线。
随着AI技术发展,攻击者可融合白市、灰市及黑市数据,构建个人及其环境的数字孪生体,使定向攻击更为便捷。专家指出,AI与网络安全的核心交汇点是数据本身。防御AI数据融合攻击需依赖硬件信任根、强加密、安全密钥存储及严格的数据匿名化措施。芯片架构师需将安全设计嵌入硬件层,确保数据完整性验证、隔离执行及认证数据流,以应对日益复杂的运行时攻击面。
南京大学与阿里巴巴提出MIMFlow,将掩码图像建模与标准化流端到端融合,让生成模型专注语义建模,以更少参数和更少令牌在ImageNet上取得FID 2.50的优异表现。