如果你曾经好奇过正在使用的聊天机器人是否知道某本书的全部内容,答案即将揭晓。计算机科学家们开发出了一种更有效的方法来从大语言模型中提取记忆内容,这一发展可能会解决监管担忧,同时有助于澄清因AI模型训练和推理产生的版权侵权声明。
来自卡内基梅隆大学、里斯本高等技术学院/INESC-ID以及AI安全平台Hydrox AI的研究人员在一篇名为"RECAP:通过智能体管道从大语言模型训练中复制版权数据"的预印本论文中描述了他们的方法。
论文作者André V. Duarte、Xuying Li、Bin Zeng、Arlindo L. Oliveira、Lei Li和Zhuo Li认为,当前对AI模型使用专有数据训练的担忧以及正在对AI公司提起的版权诉讼,都凸显了需要工具来帮助理解AI模型记忆了什么内容。
商业AI供应商通常不会披露其完整的训练数据集,这使得客户、监管机构、权利持有者或任何人都难以了解构成AI模型的具体成分。
让情况更加复杂的是,研究人员在论文中指出,之前用于探测AI模型的技术(如前缀探测)变得不太可靠,因为"当前模型在努力避免泄露记忆内容方面往往过度对齐,因此它们倾向于拒绝此类直接请求,有时甚至会阻止来自公共领域来源的输出"。
实际上,模型对齐作为一种安全机制,最终却让模型制造商免受审查。当你要求模型引用特定书籍的段落时,它可能会礼貌地拒绝。
通讯作者André V. Duarte是卡内基梅隆大学和INESC-ID的博士生,他在邮件中向The Register解释了这个项目的基本原理。
"虽然我们的工作经常以版权材料作为激励性例子,但更广泛的科学目标是理解大语言模型中记忆是如何发生的,无论底层数据是否受版权保护、属于公共领域或其他情况,"Duarte解释道。
"从研究角度来看,任何训练数据都是相关的,因为我们研究的现象(逐字或近逐字记忆)可能出现在许多不同类型的来源中。"
Duarte表示,这项研究并不专门关注版权材料,但在向公众解释这项工作时,这自然成为一个焦点。
"人们通常不太关心模型是否记忆了像《傲慢与偏见》这样的老书,但如果它能够复制模型可能没有获得训练许可的书籍或文章段落,人们就会非常担心,"他解释道。
"因此,版权示例让记忆的现实意义变得容易理解。这就是为什么开发更好的方法来检测此类记忆很重要:它有助于澄清模型可能内化了什么,支持透明度,并可能为合规性和责任讨论提供信息。"
RECAP(不要与自由法律项目的RECAP工具混淆)是一个软件智能体(带有工具的迭代循环),试图通过迭代反馈过程从大语言模型中提取特定内容。它包含一个越狱组件,当模型拒绝响应时会重新表述提示。
"RECAP的关键优势是其智能体反馈循环,"Duarte解释道。"我们从以前的工作中知道,语言模型并不总是在第一次尝试时给出最强或最完整的答案。"
"RECAP利用了这一点,让模型迭代地完善自己的输出:在每次提取尝试后,一个次级智能体会审查结果并提供关于缺失或不一致内容的高级指导,同时特别注意永远不包含目标段落的任何逐字文本,因为这会污染管道。"
使用他们自己设计的基准EchoTrace,作者报告RECAP在ROUGE-L测试中获得了0.46的平均分数,该测试用于评估文本摘要算法。这个分数比之前最好的提取方法高出78%。
论文指出:"虽然我们承认RECAP在计算上很密集,但在多个模型系列中,RECAP始终优于所有其他方法;举例来说,它从第一本《哈利·波特》书中提取了约3000个段落,而最佳基线方法只识别出75个段落。"
巧合的是,Claude的制造商Anthropic在9月份同意支付至少15亿美元来和解作者的版权声明。
Q&A
Q1:RECAP是什么?它有什么作用?
A:RECAP是一个软件智能体,通过迭代反馈过程从大语言模型中提取特定内容。它包含越狱组件来重新表述提示,当模型拒绝响应时能够绕过限制,帮助研究人员了解AI模型记忆了什么训练数据。
Q2:为什么需要检测AI模型的记忆内容?
A:商业AI供应商通常不披露完整训练数据集,这让人们难以了解AI模型的具体成分。检测记忆内容有助于澄清模型可能内化了什么,支持透明度,并为版权合规性和责任讨论提供信息。
Q3:RECAP的效果如何?
A:使用EchoTrace基准测试,RECAP在ROUGE-L测试中获得0.46的平均分数,比之前最好的提取方法高出78%。它能从《哈利·波特》第一本书中提取约3000个段落,而最佳基线方法只能识别75个段落。
好文章,需要你的鼓励
在技术快速发展的时代,保护关键系统越来越依赖AI、自动化和行为分析。数据显示,2024年95%的数据泄露源于人为错误,64%的网络事件由员工失误造成。虽然先进的网络防御技术不断发展,但人类判断仍是最薄弱环节。网络韧性不仅是技术挑战,更是人员和战略需求。建立真正的韧性需要机器精确性与人类判断力的结合,将信任视为战略基础设施的关键要素,并将网络韧性提升为国家安全的核心组成部分。
华南师范大学团队开发的GraphTracer框架,通过构建信息依赖图解决多智能体系统高失败率问题。该方法摒弃传统时间序列分析,追踪信息流网络精确定位错误根源,在失败归因准确率上比现有方法提升18.18%,并已开源供实际应用。
自计算机诞生以来,人们就担心机器会背叛创造者。近期AI事件包括数据泄露、自主破坏行为和系统追求错误目标,暴露了当前安全控制的弱点。然而这种结果并非不可避免。AI由人类构建,用我们的数据训练,在我们设计的硬件上运行。人类主导权仍是决定因素,责任仍在我们。
杜克大学研究团队通过几何框架分析发现,AI推理过程呈现连续"流动"特征而非离散跳跃。研究表明逻辑结构像河床般调节推理流的速度和方向,即使面对不同语言和领域的内容,相同逻辑结构的任务在AI内部表现出惊人的几何相似性。这一发现颠覆了AI为"随机鹦鹉"的传统认知,证明AI具备真正的逻辑理解能力,为AI可解释性和系统优化开辟新方向。