OpenAI 被多方指控在未经许可的情况下使用受版权保护的内容来训练其 AI。现在,一个 AI 监督组织发布的新研究报告提出了一个严重的指控,称该公司越来越依赖未获授权的非公开图书来训练更复杂的 AI 模型。
AI 模型本质上是复杂的预测引擎。通过大量数据的训练(包括书籍、电影、电视节目等),它们学习模式并找到从简单提示中推断的新方法。当模型"撰写"希腊悲剧的论文或"绘制" Ghibli 风格的图像时,它只是从其庞大的知识库中进行近似提取,而不是创造出全新的内容。
虽然包括 OpenAI 在内的一些 AI 实验室已开始采用 AI 生成的数据来训练 AI(因为他们已经用尽了真实世界的数据源,主要是公共网络),但很少有实验室完全放弃使用真实世界的数据。这可能是因为仅使用合成数据进行训练会带来风险,比如可能降低模型的性能。
这份新报告来自 AI Disclosures Project,这是一个由媒体大亨 Tim O'Reilly 和经济学家 Ilan Strauss 于 2024 年共同创立的非营利组织。报告得出结论,OpenAI 可能在 O'Reilly Media 的付费墙后的图书上训练了其 GPT-4o 模型。(O'Reilly 是 O'Reilly Media 的 CEO。)
在 ChatGPT 中,GPT-4o 是默认模型。该报告指出,O'Reilly 与 OpenAI 之间并没有授权协议。
报告的作者写道:"OpenAI 最新且能力更强的模型 GPT-4o,相比其早期模型 GPT-3.5 Turbo,展现出对付费墙后 O'Reilly 图书内容的强大识别能力...相比之下,GPT-3.5 Turbo 对公开可访问的 O'Reilly 图书样本表现出更高的相对识别能力。"
该报告使用了一种称为 DE-COP 的方法,这种方法首次在 2024 年的一篇学术论文中提出,旨在检测语言模型训练数据中的版权内容。这种方法也被称为"成员推理攻击",它测试模型是否能可靠地区分人类创作的文本和同一文本的 AI 生成改写版本。如果模型能做到这一点,就表明它可能在训练数据中预先接触过这些文本。
报告的合著者 - O'Reilly、Strauss 和 AI 研究员 Sruly Rosenblat 表示,他们探测了 GPT-4o、GPT-3.5 Turbo 和其他 OpenAI 模型对训练截止日期前后发布的 O'Reilly Media 图书的了解程度。他们使用了来自 34 本 O'Reilly 图书的 13,962 个段落摘录,以估计特定摘录被包含在模型训练数据集中的概率。
根据报告结果,GPT-4o 对付费墙后的 O'Reilly 图书内容的"识别"能力远超 OpenAI 的旧模型,包括 GPT-3.5 Turbo。作者表示,即使考虑到可能的混淆因素,如新模型在判断文本是否为人类创作方面的能力提升,这一结论依然成立。
作者写道:"GPT-4o [很可能] 识别并已预先了解了许多在其训练截止日期之前发布的非公开 O'Reilly 图书。"
作者谨慎地指出,这并非确凿证据。他们承认他们的实验方法并非完美无缺,而且 OpenAI 可能是从用户复制粘贴到 ChatGPT 的内容中收集了这些付费墙后的图书摘录。
使情况更加复杂的是,作者没有评估 OpenAI 最新的模型系列,包括 GPT-4.5 和"推理"模型如 o3-mini 和 o1。这些模型可能没有使用付费墙后的 O'Reilly 图书数据进行训练,或使用的数据量少于 GPT-4o。
话虽如此,OpenAI 一直在寻求更高质量的训练数据这一点并不是秘密,该公司一直提倡放宽使用版权数据开发模型的限制。公司甚至雇佣记者来帮助微调其模型的输出。这是整个行业的一个趋势:AI 公司招募科学和物理等领域的专家,让这些专家将他们的知识输入到 AI 系统中。
值得注意的是,OpenAI 确实为部分训练数据付费。该公司与新闻出版商、社交网络、图片媒体库等机构都有授权协议。OpenAI 还提供选择退出机制(尽管并不完善),允许版权所有者标记他们不希望公司用于训练目的的内容。
然而,当 OpenAI 在美国法院就其训练数据做法和版权法处理方式应对多起诉讼时,这份 O'Reilly 报告无疑让其处境更加尴尬。
OpenAI 没有回应置评请求。
好文章,需要你的鼓励
串流技术正打破传统游戏边界,让"即点即玩"的畅快体验触手可及,不仅重塑了玩家的游戏方式,更将引领整个产业迈向云端加速迈进。
Tomer Cohen作为LinkedIn的首席产品官,负责管理产品、用户体验和客户运营团队。他从以色列移居硅谷,在斯坦福大学就读期间被LinkedIn的理念所吸引。Cohen加入公司后,推动了从桌面到移动平台的转型,并致力于开发社交信息流等产品。他认为LinkedIn的核心价值在于连接人与职业网络,为用户提供发展机会。在Cohen的领导下,LinkedIn从单一的求职网站发展成为日常工作工具,拥有超10亿用户。他表示,未来将继续借助AI等技术,为用户提供更个性化的体验。
据《纽约时报》报道,亚马逊突然加入 TikTok 收购竞争,提交了全面收购报价。然而,交易各方似乎并不重视这一出价。TikTok 面临 4 月 5 日前剥离中国所有权或在美国遭禁的最后期限。特朗普总统将于周三与官员讨论 TikTok 的命运,他表示交易将在期限前敲定。与此同时,其他潜在买家如 Andreessen Horowitz 和 Blackstone 也在积极参与竞购。