OpenAI 被多方指控在未经许可的情况下使用受版权保护的内容来训练其 AI。现在,一个 AI 监督组织发布的新研究报告提出了一个严重的指控,称该公司越来越依赖未获授权的非公开图书来训练更复杂的 AI 模型。
AI 模型本质上是复杂的预测引擎。通过大量数据的训练(包括书籍、电影、电视节目等),它们学习模式并找到从简单提示中推断的新方法。当模型"撰写"希腊悲剧的论文或"绘制" Ghibli 风格的图像时,它只是从其庞大的知识库中进行近似提取,而不是创造出全新的内容。
虽然包括 OpenAI 在内的一些 AI 实验室已开始采用 AI 生成的数据来训练 AI(因为他们已经用尽了真实世界的数据源,主要是公共网络),但很少有实验室完全放弃使用真实世界的数据。这可能是因为仅使用合成数据进行训练会带来风险,比如可能降低模型的性能。
这份新报告来自 AI Disclosures Project,这是一个由媒体大亨 Tim O'Reilly 和经济学家 Ilan Strauss 于 2024 年共同创立的非营利组织。报告得出结论,OpenAI 可能在 O'Reilly Media 的付费墙后的图书上训练了其 GPT-4o 模型。(O'Reilly 是 O'Reilly Media 的 CEO。)
在 ChatGPT 中,GPT-4o 是默认模型。该报告指出,O'Reilly 与 OpenAI 之间并没有授权协议。
报告的作者写道:"OpenAI 最新且能力更强的模型 GPT-4o,相比其早期模型 GPT-3.5 Turbo,展现出对付费墙后 O'Reilly 图书内容的强大识别能力...相比之下,GPT-3.5 Turbo 对公开可访问的 O'Reilly 图书样本表现出更高的相对识别能力。"
该报告使用了一种称为 DE-COP 的方法,这种方法首次在 2024 年的一篇学术论文中提出,旨在检测语言模型训练数据中的版权内容。这种方法也被称为"成员推理攻击",它测试模型是否能可靠地区分人类创作的文本和同一文本的 AI 生成改写版本。如果模型能做到这一点,就表明它可能在训练数据中预先接触过这些文本。
报告的合著者 - O'Reilly、Strauss 和 AI 研究员 Sruly Rosenblat 表示,他们探测了 GPT-4o、GPT-3.5 Turbo 和其他 OpenAI 模型对训练截止日期前后发布的 O'Reilly Media 图书的了解程度。他们使用了来自 34 本 O'Reilly 图书的 13,962 个段落摘录,以估计特定摘录被包含在模型训练数据集中的概率。
根据报告结果,GPT-4o 对付费墙后的 O'Reilly 图书内容的"识别"能力远超 OpenAI 的旧模型,包括 GPT-3.5 Turbo。作者表示,即使考虑到可能的混淆因素,如新模型在判断文本是否为人类创作方面的能力提升,这一结论依然成立。
作者写道:"GPT-4o [很可能] 识别并已预先了解了许多在其训练截止日期之前发布的非公开 O'Reilly 图书。"
作者谨慎地指出,这并非确凿证据。他们承认他们的实验方法并非完美无缺,而且 OpenAI 可能是从用户复制粘贴到 ChatGPT 的内容中收集了这些付费墙后的图书摘录。
使情况更加复杂的是,作者没有评估 OpenAI 最新的模型系列,包括 GPT-4.5 和"推理"模型如 o3-mini 和 o1。这些模型可能没有使用付费墙后的 O'Reilly 图书数据进行训练,或使用的数据量少于 GPT-4o。
话虽如此,OpenAI 一直在寻求更高质量的训练数据这一点并不是秘密,该公司一直提倡放宽使用版权数据开发模型的限制。公司甚至雇佣记者来帮助微调其模型的输出。这是整个行业的一个趋势:AI 公司招募科学和物理等领域的专家,让这些专家将他们的知识输入到 AI 系统中。
值得注意的是,OpenAI 确实为部分训练数据付费。该公司与新闻出版商、社交网络、图片媒体库等机构都有授权协议。OpenAI 还提供选择退出机制(尽管并不完善),允许版权所有者标记他们不希望公司用于训练目的的内容。
然而,当 OpenAI 在美国法院就其训练数据做法和版权法处理方式应对多起诉讼时,这份 O'Reilly 报告无疑让其处境更加尴尬。
OpenAI 没有回应置评请求。
好文章,需要你的鼓励
本文探讨了利用人工智能构建去中心化互联网的可能性与挑战,强调理解背后哲学思想的重要性。文章引用 Abhishek Singh 的演讲,讨论了隐私、验证、激励、编排和用户体验的难题,并介绍了 NANDA(Networked Agents and Decentralized AI)的概念,认为去中心化模式将释放数据和计算资源,推动创新,实现科技普惠。
OpenAI CEO Sam Altman 描绘了订阅式 AI 平台的愿景,计划整合 SDK、API 及“界面”,通过不断迭代打造能整合个人全生活数据的智能模型,释放巨大财富潜力。
Zerve AI Ltd. 推出一款多代理系统,将 AI 代理从代码助手升级为全流程协作者,覆盖规划、基础设施部署、构建与发布,并内置分布式计算引擎及 App Builder,加速企业级 AI 产品开发。
文章基于九国3700余位IT决策者调研数据,揭示企业在生成式AI应用过程中在预算分配、领导任命、人才培养及变革管理等方面的趋势与挑战。