如果你曾经好奇过正在使用的聊天机器人是否知道某本书的全部内容,答案即将揭晓。计算机科学家们开发出了一种更有效的方法来从大语言模型中提取记忆内容,这一发展可能会解决监管担忧,同时有助于澄清因AI模型训练和推理产生的版权侵权声明。
来自卡内基梅隆大学、里斯本高等技术学院/INESC-ID以及AI安全平台Hydrox AI的研究人员在一篇名为"RECAP:通过智能体管道从大语言模型训练中复制版权数据"的预印本论文中描述了他们的方法。
论文作者André V. Duarte、Xuying Li、Bin Zeng、Arlindo L. Oliveira、Lei Li和Zhuo Li认为,当前对AI模型使用专有数据训练的担忧以及正在对AI公司提起的版权诉讼,都凸显了需要工具来帮助理解AI模型记忆了什么内容。
商业AI供应商通常不会披露其完整的训练数据集,这使得客户、监管机构、权利持有者或任何人都难以了解构成AI模型的具体成分。
让情况更加复杂的是,研究人员在论文中指出,之前用于探测AI模型的技术(如前缀探测)变得不太可靠,因为"当前模型在努力避免泄露记忆内容方面往往过度对齐,因此它们倾向于拒绝此类直接请求,有时甚至会阻止来自公共领域来源的输出"。
实际上,模型对齐作为一种安全机制,最终却让模型制造商免受审查。当你要求模型引用特定书籍的段落时,它可能会礼貌地拒绝。
通讯作者André V. Duarte是卡内基梅隆大学和INESC-ID的博士生,他在邮件中向The Register解释了这个项目的基本原理。
"虽然我们的工作经常以版权材料作为激励性例子,但更广泛的科学目标是理解大语言模型中记忆是如何发生的,无论底层数据是否受版权保护、属于公共领域或其他情况,"Duarte解释道。
"从研究角度来看,任何训练数据都是相关的,因为我们研究的现象(逐字或近逐字记忆)可能出现在许多不同类型的来源中。"
Duarte表示,这项研究并不专门关注版权材料,但在向公众解释这项工作时,这自然成为一个焦点。
"人们通常不太关心模型是否记忆了像《傲慢与偏见》这样的老书,但如果它能够复制模型可能没有获得训练许可的书籍或文章段落,人们就会非常担心,"他解释道。
"因此,版权示例让记忆的现实意义变得容易理解。这就是为什么开发更好的方法来检测此类记忆很重要:它有助于澄清模型可能内化了什么,支持透明度,并可能为合规性和责任讨论提供信息。"
RECAP(不要与自由法律项目的RECAP工具混淆)是一个软件智能体(带有工具的迭代循环),试图通过迭代反馈过程从大语言模型中提取特定内容。它包含一个越狱组件,当模型拒绝响应时会重新表述提示。
"RECAP的关键优势是其智能体反馈循环,"Duarte解释道。"我们从以前的工作中知道,语言模型并不总是在第一次尝试时给出最强或最完整的答案。"
"RECAP利用了这一点,让模型迭代地完善自己的输出:在每次提取尝试后,一个次级智能体会审查结果并提供关于缺失或不一致内容的高级指导,同时特别注意永远不包含目标段落的任何逐字文本,因为这会污染管道。"
使用他们自己设计的基准EchoTrace,作者报告RECAP在ROUGE-L测试中获得了0.46的平均分数,该测试用于评估文本摘要算法。这个分数比之前最好的提取方法高出78%。
论文指出:"虽然我们承认RECAP在计算上很密集,但在多个模型系列中,RECAP始终优于所有其他方法;举例来说,它从第一本《哈利·波特》书中提取了约3000个段落,而最佳基线方法只识别出75个段落。"
巧合的是,Claude的制造商Anthropic在9月份同意支付至少15亿美元来和解作者的版权声明。
Q&A
Q1:RECAP是什么?它有什么作用?
A:RECAP是一个软件智能体,通过迭代反馈过程从大语言模型中提取特定内容。它包含越狱组件来重新表述提示,当模型拒绝响应时能够绕过限制,帮助研究人员了解AI模型记忆了什么训练数据。
Q2:为什么需要检测AI模型的记忆内容?
A:商业AI供应商通常不披露完整训练数据集,这让人们难以了解AI模型的具体成分。检测记忆内容有助于澄清模型可能内化了什么,支持透明度,并为版权合规性和责任讨论提供信息。
Q3:RECAP的效果如何?
A:使用EchoTrace基准测试,RECAP在ROUGE-L测试中获得0.46的平均分数,比之前最好的提取方法高出78%。它能从《哈利·波特》第一本书中提取约3000个段落,而最佳基线方法只能识别75个段落。
好文章,需要你的鼓励
企业AI搜索公司Glean宣布年度经常性收入(ARR)达3亿美元,较15个月前的1亿美元增长三倍。尽管谷歌、微软、OpenAI等科技巨头纷纷入局企业AI搜索市场,Glean凭借"上下文图谱"技术深度理解企业业务需求,并帮助客户显著降低AI计算成本。该公司提供按用量计费和混合定价两种模式,客户涵盖Databricks、Reddit、Pinterest及三星等企业。Glean上轮融资后估值达72亿美元。
香港中文大学与MiniMax提出ClaimDiff-RL框架,将图像描述的AI训练从整体打分升级为逐条核查,有效解决了传统方式导致AI"少说保平安"的问题,同时在多项基准测试上超越Gemini-3-Pro-Preview。
杰夫·贝索斯旗下的蓝色起源公司在佛罗里达卡纳维拉尔角进行静态点火测试时,新格伦重型火箭发生爆炸。这是美国历史上最大规模的火箭爆炸之一,也是蓝色起源公司遭遇的最严重失败。所有人员安全,但该事故可能导致新格伦火箭项目长期暂停。此前该火箭已成功完成三次发射,并实现了助推器回收和重复使用。
ParaVT是一个由南洋理工等多校联合提出的并行视频工具调用框架,通过让AI同时分析多段视频并引入PARA-GRPO算法解决训练中的格式崩溃与工具跳过问题,在六项长视频理解测试中平均提升约7.9%。