科技出版巨头 Tim O'Reilly 声称 OpenAI 在未经许可的情况下,使用其出版社受版权保护的图书作为训练数据,并将其全部输入到其顶级 GPT-4o 模型中。
这一声明出现在生成式 AI 新秀 OpenAI 正面临多起诉讼的背景下,这些诉讼指控其在未经适当同意或补偿的情况下使用受版权保护的材料来训练其 GPT 系列神经网络。OpenAI 否认有任何不当行为。
O'Reilly (个人) 是 AI Disclosures Project 发布的一项研究 [PDF] 的三位作者之一,该研究题为"超越大语言模型预训练数据中的公开访问:OpenAI 模型中的非公开图书内容"。
所谓非公开,作者指的是需要付费才能阅读的图书,这些图书不能免费公开阅读,除非你去那些非法盗版网站。
研究团队着手确定 GPT-4o 是否在未经出版商许可的情况下吸收了 34 本 O'Reilly Media 的受版权保护的图书。为了探测这个为著名的 ChatGPT 提供支持的模型,他们执行了 2024 年预印本论文中描述的所谓 DE-COP 推理攻击。
具体操作如下:团队向 OpenAI 的模型提出了一系列多选题。每个问题要求软件从标记为 A 到 D 的一组段落中选择一个,这个段落应该是来自特定 O'Reilly (出版社) 图书的逐字引用。其中一个选项是直接从书中摘录的,其他则是原文的机器生成释义。
如果 OpenAI 模型倾向于正确回答并识别出逐字引用的段落,这就表明它很可能是用这些受版权保护的文本进行过训练。
更具体地说,模型的选择被用来计算所谓的接收者操作特征曲线下面积 (AUROC) 分数,分数越高表示神经网络更有可能接受过这 34 本 O'Reilly 图书段落的训练。而接近 50% 的分数则被认为表明模型未接受过该数据的训练。
对 OpenAI 的 GPT-3.5 Turbo、GPT-4o Mini 以及 GPT-4o 模型进行了 13,962 个段落的测试,结果不一。
2024 年 5 月发布的 GPT-4o 得分为 82%,这强烈暗示它很可能接受过该出版商材料的训练。研究人员推测 OpenAI 可能使用了包含所有 34 本测试图书的 LibGen 数据库来训练模型。你可能记得 Meta 也被指控使用这个臭名昭著的数据集训练其 Llama 模型。
OpenAI 模型预训练数据中非公开数据的比重随时间显著增加。
2022 年的 GPT-3.5 模型的 AUROC 分数仅略高于 50%。
研究人员断言,GPT-4o 的更高分数证明了"OpenAI 模型预训练数据中非公开数据的比重随时间显著增加。"
然而,研究三人组还发现,同样在 2024 年发布、训练过程与完整 GPT-4o 模型同时结束的较小型 GPT-4o Mini 模型似乎并未接受过 O'Reilly 图书的训练。他们认为这并不表明他们的测试有缺陷,而是较小的参数数量可能影响了迷你模型"记住"文本的能力。
"这些结果突显了增加企业预训练数据来源透明度的紧迫需求,以此发展 AI 内容训练的正式许可框架,"作者写道。
"虽然这里关于模型访问违规的证据特定于 OpenAI 和 O'Reilly Media 的图书,但这很可能是一个系统性问题,"他们补充道。
这三人组(包括 Sruly Rosenblat 和 Ilan Strauss)还警告说,如果不能充分补偿创作者的作品,可能会导致整个互联网内容质量下降(原文用了"enshittification"这个术语)。
"如果 AI 公司在不公平补偿创作者的情况下从其制作的材料中提取价值,他们就有可能耗尽其 AI 系统所依赖的资源,"他们论证道。"如果不解决这个问题,未经补偿的训练数据可能导致互联网内容质量和多样性的螺旋式下降。"
AI 巨头似乎知道他们不能仅仅依靠互联网爬取来获取训练模型所需的材料,因为他们已经开始与出版商和社交网络签订内容许可协议。去年,OpenAI 与 Reddit 和时代杂志签订协议,获取其档案用于训练目的。Google 也与 Reddit 达成了协议。
然而最近,OpenAI 敦促美国政府放宽版权限制,以便让 AI 模型的训练变得更容易。
上个月,这家超级实验室向白宫科技政策办公室提交了一封公开信,其中认为"严格的版权规则正在抑制创新和投资",如果不采取行动改变这一点,中国的模型开发者可能会超过美国公司。
虽然模型开发者显然在挣扎,但律师们却过得不错。正如我们最近报道的,Thomson Reuters 在美国法院裁定初创公司 Ross Intelligence 通过使用该通讯社的 Westlaw 判例摘要来训练其 AI 系统侵犯版权后,赢得了部分即决判决。
当神经网络训练者推动无限制访问时,科技界的其他人正在引入路障来保护受版权保护的材料。上个月,Cloudflare 推出了一个打击机器人的 AI,旨在让那些忽视 robots.txt 指令的爬虫程序感到痛苦。
Cloudflare 的"AI 迷宫"通过将流氓爬虫机器人引诱到诱饵页面的迷宫中,浪费它们的时间和计算资源,同时保护真实内容。
刚刚获得另外 400 亿美元资金的 OpenAI 没有立即回应置评请求;如果我们收到任何回复,我们会让你知道。
好文章,需要你的鼓励
CIO们正面临众多复杂挑战,其多样性值得关注。除了企业安全和成本控制等传统问题,人工智能快速发展和地缘政治环境正在颠覆常规业务模式。主要挑战包括:AI技术快速演进、IT部门AI应用、AI网络攻击威胁、AIOps智能运维、快速实现价值、地缘政治影响、成本控制、人才短缺、安全风险管理以及未来准备等十个方面。
北航团队发布AnimaX技术,能够根据文字描述让静态3D模型自动生成动画。该系统支持人形角色、动物、家具等各类模型,仅需6分钟即可完成高质量动画生成,效率远超传统方法。通过多视角视频-姿态联合扩散模型,AnimaX有效结合了视频AI的运动理解能力与骨骼动画的精确控制,在16万动画序列数据集上训练后展现出卓越性能。
过去两年间,许多组织启动了大量AI概念验证项目,但失败率高且投资回报率令人失望。如今出现新趋势,组织开始重新评估AI实验的撒网策略。IT观察者发现,许多组织正在减少AI概念验证项目数量,IT领导转向商业AI工具,专注于有限的战略性目标用例。专家表示,组织正从大规模实验转向更专注、结果导向的AI部署,优先考虑能深度融入运营工作流程并产生可衡量结果的少数用例。
这项研究解决了AI图片描述中的两大难题:描述不平衡和内容虚构。通过创新的"侦探式追问"方法,让AI能生成更详细准确的图片描述,显著提升了多个AI系统的性能表现,为无障碍技术、教育、电商等领域带来实用价值。