OpenAI 被多方指控在未经许可的情况下使用受版权保护的内容来训练其 AI。现在,一个 AI 监督组织发布的新研究报告提出了一个严重的指控,称该公司越来越依赖未获授权的非公开图书来训练更复杂的 AI 模型。
AI 模型本质上是复杂的预测引擎。通过大量数据的训练(包括书籍、电影、电视节目等),它们学习模式并找到从简单提示中推断的新方法。当模型"撰写"希腊悲剧的论文或"绘制" Ghibli 风格的图像时,它只是从其庞大的知识库中进行近似提取,而不是创造出全新的内容。
虽然包括 OpenAI 在内的一些 AI 实验室已开始采用 AI 生成的数据来训练 AI(因为他们已经用尽了真实世界的数据源,主要是公共网络),但很少有实验室完全放弃使用真实世界的数据。这可能是因为仅使用合成数据进行训练会带来风险,比如可能降低模型的性能。
这份新报告来自 AI Disclosures Project,这是一个由媒体大亨 Tim O'Reilly 和经济学家 Ilan Strauss 于 2024 年共同创立的非营利组织。报告得出结论,OpenAI 可能在 O'Reilly Media 的付费墙后的图书上训练了其 GPT-4o 模型。(O'Reilly 是 O'Reilly Media 的 CEO。)
在 ChatGPT 中,GPT-4o 是默认模型。该报告指出,O'Reilly 与 OpenAI 之间并没有授权协议。
报告的作者写道:"OpenAI 最新且能力更强的模型 GPT-4o,相比其早期模型 GPT-3.5 Turbo,展现出对付费墙后 O'Reilly 图书内容的强大识别能力...相比之下,GPT-3.5 Turbo 对公开可访问的 O'Reilly 图书样本表现出更高的相对识别能力。"
该报告使用了一种称为 DE-COP 的方法,这种方法首次在 2024 年的一篇学术论文中提出,旨在检测语言模型训练数据中的版权内容。这种方法也被称为"成员推理攻击",它测试模型是否能可靠地区分人类创作的文本和同一文本的 AI 生成改写版本。如果模型能做到这一点,就表明它可能在训练数据中预先接触过这些文本。
报告的合著者 - O'Reilly、Strauss 和 AI 研究员 Sruly Rosenblat 表示,他们探测了 GPT-4o、GPT-3.5 Turbo 和其他 OpenAI 模型对训练截止日期前后发布的 O'Reilly Media 图书的了解程度。他们使用了来自 34 本 O'Reilly 图书的 13,962 个段落摘录,以估计特定摘录被包含在模型训练数据集中的概率。
根据报告结果,GPT-4o 对付费墙后的 O'Reilly 图书内容的"识别"能力远超 OpenAI 的旧模型,包括 GPT-3.5 Turbo。作者表示,即使考虑到可能的混淆因素,如新模型在判断文本是否为人类创作方面的能力提升,这一结论依然成立。
作者写道:"GPT-4o [很可能] 识别并已预先了解了许多在其训练截止日期之前发布的非公开 O'Reilly 图书。"
作者谨慎地指出,这并非确凿证据。他们承认他们的实验方法并非完美无缺,而且 OpenAI 可能是从用户复制粘贴到 ChatGPT 的内容中收集了这些付费墙后的图书摘录。
使情况更加复杂的是,作者没有评估 OpenAI 最新的模型系列,包括 GPT-4.5 和"推理"模型如 o3-mini 和 o1。这些模型可能没有使用付费墙后的 O'Reilly 图书数据进行训练,或使用的数据量少于 GPT-4o。
话虽如此,OpenAI 一直在寻求更高质量的训练数据这一点并不是秘密,该公司一直提倡放宽使用版权数据开发模型的限制。公司甚至雇佣记者来帮助微调其模型的输出。这是整个行业的一个趋势:AI 公司招募科学和物理等领域的专家,让这些专家将他们的知识输入到 AI 系统中。
值得注意的是,OpenAI 确实为部分训练数据付费。该公司与新闻出版商、社交网络、图片媒体库等机构都有授权协议。OpenAI 还提供选择退出机制(尽管并不完善),允许版权所有者标记他们不希望公司用于训练目的的内容。
然而,当 OpenAI 在美国法院就其训练数据做法和版权法处理方式应对多起诉讼时,这份 O'Reilly 报告无疑让其处境更加尴尬。
OpenAI 没有回应置评请求。
好文章,需要你的鼓励
苏州大学研究团队提出"语境降噪训练"新方法,通过"综合梯度分数"识别长文本中的关键信息,在训练时强化重要内容、抑制干扰噪音。该技术让80亿参数的开源模型在长文本任务上达到GPT-4o水平,训练效率比传统方法高出40多倍。研究解决了AI处理长文档时容易被无关信息干扰的核心问题,为文档分析、法律研究等应用提供重要突破。
在Cloudera的“价值观”中,企业智能化的根基可以被概括为两个字:“源”与“治”——让数据有源,智能可治。
清华大学团队首次揭示了困扰AI训练领域超过两年的"幽灵故障"根本原因:Flash Attention在BF16精度下训练时会因数字舍入偏差与低秩矩阵结构的交互作用导致训练崩溃。研究团队通过深入分析发现问题源于注意力权重为1时的系统性舍入误差累积,并提出了动态最大值调整的解决方案,成功稳定了训练过程。这项研究不仅解决了实际工程问题,更为分析类似数值稳定性挑战提供了重要方法论。