研究人员指出 OpenAI 在付费墙后的 O'Reilly 图书上训练 AI 模型

一项新研究表明，OpenAI 可能在未获授权的情况下，使用 O'Reilly 出版社的付费图书来训练其先进的 AI 模型。研究发现，与早期模型相比，OpenAI 的 GPT-4o 模型对 O'Reilly 付费内容表现出更强的识别能力。这一发现引发了对 AI 训练数据来源和版权问题的讨论，同时也凸显了 AI 公司在寻求高质量训练数据方面面临的挑战。

OpenAI 被多方指控在未经许可的情况下使用受版权保护的内容来训练其 AI。现在，一个 AI 监督组织发布的新研究报告提出了一个严重的指控，称该公司越来越依赖未获授权的非公开图书来训练更复杂的 AI 模型。

AI 模型本质上是复杂的预测引擎。通过大量数据的训练（包括书籍、电影、电视节目等），它们学习模式并找到从简单提示中推断的新方法。当模型"撰写"希腊悲剧的论文或"绘制" Ghibli 风格的图像时，它只是从其庞大的知识库中进行近似提取，而不是创造出全新的内容。

虽然包括 OpenAI 在内的一些 AI 实验室已开始采用 AI 生成的数据来训练 AI（因为他们已经用尽了真实世界的数据源，主要是公共网络），但很少有实验室完全放弃使用真实世界的数据。这可能是因为仅使用合成数据进行训练会带来风险，比如可能降低模型的性能。

这份新报告来自 AI Disclosures Project，这是一个由媒体大亨 Tim O'Reilly 和经济学家 Ilan Strauss 于 2024 年共同创立的非营利组织。报告得出结论，OpenAI 可能在 O'Reilly Media 的付费墙后的图书上训练了其 GPT-4o 模型。（O'Reilly 是 O'Reilly Media 的 CEO。）

在 ChatGPT 中，GPT-4o 是默认模型。该报告指出，O'Reilly 与 OpenAI 之间并没有授权协议。

报告的作者写道："OpenAI 最新且能力更强的模型 GPT-4o，相比其早期模型 GPT-3.5 Turbo，展现出对付费墙后 O'Reilly 图书内容的强大识别能力...相比之下，GPT-3.5 Turbo 对公开可访问的 O'Reilly 图书样本表现出更高的相对识别能力。"

该报告使用了一种称为 DE-COP 的方法，这种方法首次在 2024 年的一篇学术论文中提出，旨在检测语言模型训练数据中的版权内容。这种方法也被称为"成员推理攻击"，它测试模型是否能可靠地区分人类创作的文本和同一文本的 AI 生成改写版本。如果模型能做到这一点，就表明它可能在训练数据中预先接触过这些文本。

报告的合著者 - O'Reilly、Strauss 和 AI 研究员 Sruly Rosenblat 表示，他们探测了 GPT-4o、GPT-3.5 Turbo 和其他 OpenAI 模型对训练截止日期前后发布的 O'Reilly Media 图书的了解程度。他们使用了来自 34 本 O'Reilly 图书的 13,962 个段落摘录，以估计特定摘录被包含在模型训练数据集中的概率。

根据报告结果，GPT-4o 对付费墙后的 O'Reilly 图书内容的"识别"能力远超 OpenAI 的旧模型，包括 GPT-3.5 Turbo。作者表示，即使考虑到可能的混淆因素，如新模型在判断文本是否为人类创作方面的能力提升，这一结论依然成立。

作者写道："GPT-4o [很可能] 识别并已预先了解了许多在其训练截止日期之前发布的非公开 O'Reilly 图书。"

作者谨慎地指出，这并非确凿证据。他们承认他们的实验方法并非完美无缺，而且 OpenAI 可能是从用户复制粘贴到 ChatGPT 的内容中收集了这些付费墙后的图书摘录。

使情况更加复杂的是，作者没有评估 OpenAI 最新的模型系列，包括 GPT-4.5 和"推理"模型如 o3-mini 和 o1。这些模型可能没有使用付费墙后的 O'Reilly 图书数据进行训练，或使用的数据量少于 GPT-4o。

话虽如此，OpenAI 一直在寻求更高质量的训练数据这一点并不是秘密，该公司一直提倡放宽使用版权数据开发模型的限制。公司甚至雇佣记者来帮助微调其模型的输出。这是整个行业的一个趋势：AI 公司招募科学和物理等领域的专家，让这些专家将他们的知识输入到 AI 系统中。

然而，当 OpenAI 在美国法院就其训练数据做法和版权法处理方式应对多起诉讼时，这份 O'Reilly 报告无疑让其处境更加尴尬。

OpenAI 没有回应置评请求。

来源：Techcrunch

0赞

好文章，需要你的鼓励

研究人员指出 OpenAI 在付费墙后的 O'Reilly 图书上训练 AI 模型

来源：Techcrunch

2025

04/02

16:20

分享

点赞

“4个9”韧性的背后，西云数据以技术与运营加速企业数字化创新

Google力推手机AI功能引发关注

Meta发布AI翻译功能，支持脸书和Instagram内容实时转换

HPE发布Nvidia Blackwell驱动的AI服务器，抢占AI市场需求

ISACA推出AI安全管理高级认证项目

谷歌推出智能体SOC系统提升安全事件响应速度

Lumen升级400GB数据中心连接基础设施助力AI发展

AI和流媒体推动，2030年面临"网络危机"

Pine64停产Pro手机转向RISC-V业务

日立Vantara将VSP One块存储扩展至Azure云平台

Finchetto光学数据包交换机：光无法存储的技术挑战与突破

Python开发者调查显示增长强劲，但基金会资金面临困境

Emergence AI 正在使用 AI 代理实时构建新的 AI 代理

新加坡研究人员如何利用 AI 对抗帕金森病

72% 的 Z 世代不信任 AI 安全性 - 持怀疑态度人数居各年龄段之首

MCP：让竞争对手携手合作的 AI 界"USB-C"标准

直取人工超级智能而非通过中间步骤的路径探讨

Amazon 推出新型AI购物助手

Nvidia 竞争对手 Cerebras 称在 IPO 前已跨越中东融资障碍

AI 时代为什么你依然需要学习编程

AI 领导者必知：在使用 AI 之前需要了解什么

Microsoft 50岁了，它准备好迎接下一个技术前沿了吗？

如果您非常迫切的想了解IT领域最新产品与技术信息，那么订阅至顶网技术邮件将是您的最佳途径之一

关于AI Agent落地，李开复强调了两件事：“价值交付”和“一把手工程”

AWS re:Inforce：费城这天不只拼进球，还拼生成式AI安全

在欧洲之门马德里，我们再次见证了SAP激活企业增长的“飞轮”

IEEE专家委员胡凝：消解AI幻觉“阴影”，洞见“超级个体”价值锚点

关注官方公众号

关注官方微博

关注官方喜马拉雅

友情链接

业界热点: