科技出版巨头 Tim O'Reilly 声称 OpenAI 在未经许可的情况下,使用其出版社受版权保护的图书作为训练数据,并将其全部输入到其顶级 GPT-4o 模型中。
这一声明出现在生成式 AI 新秀 OpenAI 正面临多起诉讼的背景下,这些诉讼指控其在未经适当同意或补偿的情况下使用受版权保护的材料来训练其 GPT 系列神经网络。OpenAI 否认有任何不当行为。
O'Reilly (个人) 是 AI Disclosures Project 发布的一项研究 [PDF] 的三位作者之一,该研究题为"超越大语言模型预训练数据中的公开访问:OpenAI 模型中的非公开图书内容"。
所谓非公开,作者指的是需要付费才能阅读的图书,这些图书不能免费公开阅读,除非你去那些非法盗版网站。
研究团队着手确定 GPT-4o 是否在未经出版商许可的情况下吸收了 34 本 O'Reilly Media 的受版权保护的图书。为了探测这个为著名的 ChatGPT 提供支持的模型,他们执行了 2024 年预印本论文中描述的所谓 DE-COP 推理攻击。
具体操作如下:团队向 OpenAI 的模型提出了一系列多选题。每个问题要求软件从标记为 A 到 D 的一组段落中选择一个,这个段落应该是来自特定 O'Reilly (出版社) 图书的逐字引用。其中一个选项是直接从书中摘录的,其他则是原文的机器生成释义。
如果 OpenAI 模型倾向于正确回答并识别出逐字引用的段落,这就表明它很可能是用这些受版权保护的文本进行过训练。
更具体地说,模型的选择被用来计算所谓的接收者操作特征曲线下面积 (AUROC) 分数,分数越高表示神经网络更有可能接受过这 34 本 O'Reilly 图书段落的训练。而接近 50% 的分数则被认为表明模型未接受过该数据的训练。
对 OpenAI 的 GPT-3.5 Turbo、GPT-4o Mini 以及 GPT-4o 模型进行了 13,962 个段落的测试,结果不一。
2024 年 5 月发布的 GPT-4o 得分为 82%,这强烈暗示它很可能接受过该出版商材料的训练。研究人员推测 OpenAI 可能使用了包含所有 34 本测试图书的 LibGen 数据库来训练模型。你可能记得 Meta 也被指控使用这个臭名昭著的数据集训练其 Llama 模型。
OpenAI 模型预训练数据中非公开数据的比重随时间显著增加。
2022 年的 GPT-3.5 模型的 AUROC 分数仅略高于 50%。
研究人员断言,GPT-4o 的更高分数证明了"OpenAI 模型预训练数据中非公开数据的比重随时间显著增加。"
然而,研究三人组还发现,同样在 2024 年发布、训练过程与完整 GPT-4o 模型同时结束的较小型 GPT-4o Mini 模型似乎并未接受过 O'Reilly 图书的训练。他们认为这并不表明他们的测试有缺陷,而是较小的参数数量可能影响了迷你模型"记住"文本的能力。
"这些结果突显了增加企业预训练数据来源透明度的紧迫需求,以此发展 AI 内容训练的正式许可框架,"作者写道。
"虽然这里关于模型访问违规的证据特定于 OpenAI 和 O'Reilly Media 的图书,但这很可能是一个系统性问题,"他们补充道。
这三人组(包括 Sruly Rosenblat 和 Ilan Strauss)还警告说,如果不能充分补偿创作者的作品,可能会导致整个互联网内容质量下降(原文用了"enshittification"这个术语)。
"如果 AI 公司在不公平补偿创作者的情况下从其制作的材料中提取价值,他们就有可能耗尽其 AI 系统所依赖的资源,"他们论证道。"如果不解决这个问题,未经补偿的训练数据可能导致互联网内容质量和多样性的螺旋式下降。"
AI 巨头似乎知道他们不能仅仅依靠互联网爬取来获取训练模型所需的材料,因为他们已经开始与出版商和社交网络签订内容许可协议。去年,OpenAI 与 Reddit 和时代杂志签订协议,获取其档案用于训练目的。Google 也与 Reddit 达成了协议。
然而最近,OpenAI 敦促美国政府放宽版权限制,以便让 AI 模型的训练变得更容易。
上个月,这家超级实验室向白宫科技政策办公室提交了一封公开信,其中认为"严格的版权规则正在抑制创新和投资",如果不采取行动改变这一点,中国的模型开发者可能会超过美国公司。
虽然模型开发者显然在挣扎,但律师们却过得不错。正如我们最近报道的,Thomson Reuters 在美国法院裁定初创公司 Ross Intelligence 通过使用该通讯社的 Westlaw 判例摘要来训练其 AI 系统侵犯版权后,赢得了部分即决判决。
当神经网络训练者推动无限制访问时,科技界的其他人正在引入路障来保护受版权保护的材料。上个月,Cloudflare 推出了一个打击机器人的 AI,旨在让那些忽视 robots.txt 指令的爬虫程序感到痛苦。
Cloudflare 的"AI 迷宫"通过将流氓爬虫机器人引诱到诱饵页面的迷宫中,浪费它们的时间和计算资源,同时保护真实内容。
刚刚获得另外 400 亿美元资金的 OpenAI 没有立即回应置评请求;如果我们收到任何回复,我们会让你知道。
好文章,需要你的鼓励
这项由加州大学圣地亚哥分校和微软研究院合作开发的REAL框架,通过程序分析反馈训练大型语言模型生成高质量代码。与传统方法不同,REAL采用强化学习将代码安全性和可维护性作为奖励信号,不依赖人工标注或特定规则。研究在多个数据集上的实验表明,REAL在保证功能正确性的同时显著提高了代码质量,有效解决了"即兴编程"中的安全漏洞和维护性问题,为AI辅助编程提供了新的范式。
加州大学伯克利分校与Meta FAIR研究团队开发了"Self-Challenging"框架,让大语言模型通过自己创建和解决任务来提升能力。该方法引入创新的"Code-as-Task"格式,包含指令、验证函数、示例解决方案和失败案例,确保生成的任务既可行又有挑战性。在工具计算、网页浏览、零售服务和航班预订四种环境测试中,仅使用自生成训练数据,Llama-3.1-8B模型性能提升了两倍多,证明AI可以通过自我挑战实现有效学习,减少对人类标注的依赖。
南洋理工大学与SenseTime Research合作提出了PoseFuse3D-KI,一种创新的人体中心关键帧插值框架。该方法将3D人体模型信息融入扩散过程,解决了现有技术在处理复杂人体动作时产生扭曲结果的问题。研究团队开发了专门的SMPL-X编码器直接从3D空间提取几何信息,并设计了融合网络将3D线索与2D姿态无缝整合。他们还构建了CHKI-Video数据集,包含2,614个视频片段及完整的人体标注。实验结果显示,PoseFuse3D-KI在PSNR上提升9%,LPIPS减少38%,显著超越现有方法。
这项研究提出了LongGuide算法,解决了大型语言模型在长文本生成任务中的局限性。研究团队发现,仅依靠上下文学习无法使模型充分掌握文本的语言和格式特性。LongGuide通过自动生成两种指导原则:度量指导原则和输出约束指导原则,显著提升了模型性能。在七种长文本生成任务中,该方法使开源和闭源模型的ROUGE-L评分平均提高约6%。LongGuide具有通用性强、易于学习、成本效益高等优点,为提升AI长文本生成能力提供了新方向。