研究员破解AI聊天机器人训练数据来源之谜

研究人员开发出更有效的方法从大型语言模型中提取记忆内容，可帮助解决监管担忧和版权纠纷。该技术名为RECAP，通过智能反馈循环迭代提取特定内容，包含突破模型拒绝回应的组件。在基准测试中，RECAP在文本提取方面比现有最佳方法提升78%，能从《哈利波特》首部小说中提取约3000段文字。这项研究有助于提高AI模型透明度。

如果你曾经好奇过正在使用的聊天机器人是否知道某本书的全部内容，答案即将揭晓。计算机科学家们开发出了一种更有效的方法来从大语言模型中提取记忆内容，这一发展可能会解决监管担忧，同时有助于澄清因AI模型训练和推理产生的版权侵权声明。

来自卡内基梅隆大学、里斯本高等技术学院/INESC-ID以及AI安全平台Hydrox AI的研究人员在一篇名为"RECAP：通过智能体管道从大语言模型训练中复制版权数据"的预印本论文中描述了他们的方法。

论文作者André V. Duarte、Xuying Li、Bin Zeng、Arlindo L. Oliveira、Lei Li和Zhuo Li认为，当前对AI模型使用专有数据训练的担忧以及正在对AI公司提起的版权诉讼，都凸显了需要工具来帮助理解AI模型记忆了什么内容。

商业AI供应商通常不会披露其完整的训练数据集，这使得客户、监管机构、权利持有者或任何人都难以了解构成AI模型的具体成分。

让情况更加复杂的是，研究人员在论文中指出，之前用于探测AI模型的技术（如前缀探测）变得不太可靠，因为"当前模型在努力避免泄露记忆内容方面往往过度对齐，因此它们倾向于拒绝此类直接请求，有时甚至会阻止来自公共领域来源的输出"。

实际上，模型对齐作为一种安全机制，最终却让模型制造商免受审查。当你要求模型引用特定书籍的段落时，它可能会礼貌地拒绝。

通讯作者André V. Duarte是卡内基梅隆大学和INESC-ID的博士生，他在邮件中向The Register解释了这个项目的基本原理。

"虽然我们的工作经常以版权材料作为激励性例子，但更广泛的科学目标是理解大语言模型中记忆是如何发生的，无论底层数据是否受版权保护、属于公共领域或其他情况，"Duarte解释道。

"从研究角度来看，任何训练数据都是相关的，因为我们研究的现象（逐字或近逐字记忆）可能出现在许多不同类型的来源中。"

Duarte表示，这项研究并不专门关注版权材料，但在向公众解释这项工作时，这自然成为一个焦点。

"人们通常不太关心模型是否记忆了像《傲慢与偏见》这样的老书，但如果它能够复制模型可能没有获得训练许可的书籍或文章段落，人们就会非常担心，"他解释道。

"因此，版权示例让记忆的现实意义变得容易理解。这就是为什么开发更好的方法来检测此类记忆很重要：它有助于澄清模型可能内化了什么，支持透明度，并可能为合规性和责任讨论提供信息。"

RECAP（不要与自由法律项目的RECAP工具混淆）是一个软件智能体（带有工具的迭代循环），试图通过迭代反馈过程从大语言模型中提取特定内容。它包含一个越狱组件，当模型拒绝响应时会重新表述提示。

"RECAP的关键优势是其智能体反馈循环，"Duarte解释道。"我们从以前的工作中知道，语言模型并不总是在第一次尝试时给出最强或最完整的答案。"

"RECAP利用了这一点，让模型迭代地完善自己的输出：在每次提取尝试后，一个次级智能体会审查结果并提供关于缺失或不一致内容的高级指导，同时特别注意永远不包含目标段落的任何逐字文本，因为这会污染管道。"

使用他们自己设计的基准EchoTrace，作者报告RECAP在ROUGE-L测试中获得了0.46的平均分数，该测试用于评估文本摘要算法。这个分数比之前最好的提取方法高出78%。

论文指出："虽然我们承认RECAP在计算上很密集，但在多个模型系列中，RECAP始终优于所有其他方法；举例来说，它从第一本《哈利·波特》书中提取了约3000个段落，而最佳基线方法只识别出75个段落。"

Q&A

Q1：RECAP是什么？它有什么作用？

A：RECAP是一个软件智能体，通过迭代反馈过程从大语言模型中提取特定内容。它包含越狱组件来重新表述提示，当模型拒绝响应时能够绕过限制，帮助研究人员了解AI模型记忆了什么训练数据。

Q2：为什么需要检测AI模型的记忆内容？

A：商业AI供应商通常不披露完整训练数据集，这让人们难以了解AI模型的具体成分。检测记忆内容有助于澄清模型可能内化了什么，支持透明度，并为版权合规性和责任讨论提供信息。

Q3：RECAP的效果如何？

A：使用EchoTrace基准测试，RECAP在ROUGE-L测试中获得0.46的平均分数，比之前最好的提取方法高出78%。它能从《哈利·波特》第一本书中提取约3000个段落，而最佳基线方法只能识别75个段落。

来源：The Register

0赞

好文章，需要你的鼓励

研究员破解AI聊天机器人训练数据来源之谜

来源：The Register

2025

11/24

11:38

分享

点赞

遭黑客入侵的Klue称犯罪分子正在删除窃取的客户数据，但新的黑客组织接连发出威胁

苹果起诉OpenAI窃密：前员工利用零日漏洞下载机密文件

Uber联手Hertz为Lucid无人驾驶出租车提供运营支持

Aurora与McLane达成合作，无人驾驶卡车将在德克萨斯州运营

Waymo因洪水问题发布召回，近4000辆自动驾驶车辆受影响

AI驱动的"地面情报"系统：Samsara如何帮助城市主动修复坑洼路面

特斯拉Robotaxi披露两起远程操控事故

特斯拉FSD自动驾驶软件加速进军欧洲市场

Waymo暂停高速公路服务，因自动驾驶出租车难以应对施工区

Waymo自动驾驶车辆注册数量领跑德克萨斯，特斯拉远落后

Siri AI、ChatGPT、Claude真实横评，谁才是最强AI助手？

Uber年度遗失物报告揭示：数千件物品遗留在无人驾驶出租车中

Brave浏览器AI助手Leo引入可信执行环境增强隐私保护

OpenAI与富士康合作开发AI数据中心套件

Oracle巨额AI投资引发华尔街风险担忧

从生成式到智能体：2026年AI自主性的新时代

微软开源经典游戏Zork源代码，MIT许可证下重现文字冒险传奇

Google发布Nano Banana Pro最新图像生成模型

Gemini新增AI图像检测功能，但识别能力有限

ChatGPT全球推出群聊功能，支持多人协作对话

Google联手西屋推动核反应堆建设智能化优化方案

Sunday公司推出家用机器人Memo，计划让机器人走进千家万户

如果您非常迫切的想了解IT领域最新产品与技术信息，那么订阅至顶网技术邮件将是您的最佳途径之一

三一集团：数字化是必选项，AI是生存项

因湃电池 × 达索系统：如何共创出一套电池产业最佳实践

AI走进真实世界之后：安全、健康与产业的新命题

CES 2026

关注官方公众号

关注官方微博

关注官方喜马拉雅

友情链接

业界热点: