研究人员指出 OpenAI 在付费墙后的 O'Reilly 图书上训练 AI 模型

一项新研究表明,OpenAI 可能在未获授权的情况下,使用 O'Reilly 出版社的付费图书来训练其先进的 AI 模型。研究发现,与早期模型相比,OpenAI 的 GPT-4o 模型对 O'Reilly 付费内容表现出更强的识别能力。这一发现引发了对 AI 训练数据来源和版权问题的讨论,同时也凸显了 AI 公司在寻求高质量训练数据方面面临的挑战。

OpenAI 被多方指控在未经许可的情况下使用受版权保护的内容来训练其 AI。现在,一个 AI 监督组织发布的新研究报告提出了一个严重的指控,称该公司越来越依赖未获授权的非公开图书来训练更复杂的 AI 模型。

AI 模型本质上是复杂的预测引擎。通过大量数据的训练(包括书籍、电影、电视节目等),它们学习模式并找到从简单提示中推断的新方法。当模型"撰写"希腊悲剧的论文或"绘制" Ghibli 风格的图像时,它只是从其庞大的知识库中进行近似提取,而不是创造出全新的内容。

虽然包括 OpenAI 在内的一些 AI 实验室已开始采用 AI 生成的数据来训练 AI(因为他们已经用尽了真实世界的数据源,主要是公共网络),但很少有实验室完全放弃使用真实世界的数据。这可能是因为仅使用合成数据进行训练会带来风险,比如可能降低模型的性能。

这份新报告来自 AI Disclosures Project,这是一个由媒体大亨 Tim O'Reilly 和经济学家 Ilan Strauss 于 2024 年共同创立的非营利组织。报告得出结论,OpenAI 可能在 O'Reilly Media 的付费墙后的图书上训练了其 GPT-4o 模型。(O'Reilly 是 O'Reilly Media 的 CEO。)

在 ChatGPT 中,GPT-4o 是默认模型。该报告指出,O'Reilly 与 OpenAI 之间并没有授权协议。

报告的作者写道:"OpenAI 最新且能力更强的模型 GPT-4o,相比其早期模型 GPT-3.5 Turbo,展现出对付费墙后 O'Reilly 图书内容的强大识别能力...相比之下,GPT-3.5 Turbo 对公开可访问的 O'Reilly 图书样本表现出更高的相对识别能力。"

该报告使用了一种称为 DE-COP 的方法,这种方法首次在 2024 年的一篇学术论文中提出,旨在检测语言模型训练数据中的版权内容。这种方法也被称为"成员推理攻击",它测试模型是否能可靠地区分人类创作的文本和同一文本的 AI 生成改写版本。如果模型能做到这一点,就表明它可能在训练数据中预先接触过这些文本。

报告的合著者 - O'Reilly、Strauss 和 AI 研究员 Sruly Rosenblat 表示,他们探测了 GPT-4o、GPT-3.5 Turbo 和其他 OpenAI 模型对训练截止日期前后发布的 O'Reilly Media 图书的了解程度。他们使用了来自 34 本 O'Reilly 图书的 13,962 个段落摘录,以估计特定摘录被包含在模型训练数据集中的概率。

根据报告结果,GPT-4o 对付费墙后的 O'Reilly 图书内容的"识别"能力远超 OpenAI 的旧模型,包括 GPT-3.5 Turbo。作者表示,即使考虑到可能的混淆因素,如新模型在判断文本是否为人类创作方面的能力提升,这一结论依然成立。

作者写道:"GPT-4o [很可能] 识别并已预先了解了许多在其训练截止日期之前发布的非公开 O'Reilly 图书。"

作者谨慎地指出,这并非确凿证据。他们承认他们的实验方法并非完美无缺,而且 OpenAI 可能是从用户复制粘贴到 ChatGPT 的内容中收集了这些付费墙后的图书摘录。

使情况更加复杂的是,作者没有评估 OpenAI 最新的模型系列,包括 GPT-4.5 和"推理"模型如 o3-mini 和 o1。这些模型可能没有使用付费墙后的 O'Reilly 图书数据进行训练,或使用的数据量少于 GPT-4o。

话虽如此,OpenAI 一直在寻求更高质量的训练数据这一点并不是秘密,该公司一直提倡放宽使用版权数据开发模型的限制。公司甚至雇佣记者来帮助微调其模型的输出。这是整个行业的一个趋势:AI 公司招募科学和物理等领域的专家,让这些专家将他们的知识输入到 AI 系统中。

值得注意的是,OpenAI 确实为部分训练数据付费。该公司与新闻出版商、社交网络、图片媒体库等机构都有授权协议。OpenAI 还提供选择退出机制(尽管并不完善),允许版权所有者标记他们不希望公司用于训练目的的内容。

然而,当 OpenAI 在美国法院就其训练数据做法和版权法处理方式应对多起诉讼时,这份 O'Reilly 报告无疑让其处境更加尴尬。

OpenAI 没有回应置评请求。

来源:Techcrunch

0赞

好文章,需要你的鼓励

2025

04/02

16:20

分享

点赞

邮件订阅