Databricks似乎无法从一场版权侵权集体诉讼中脱身。多位书籍作者声称,该公司的大语言模型是借助一个包含约19.6万部书籍盗版内容的数据库训练而成的。
上周,美国加利福尼亚州北区联邦地区法院法官查尔斯·布雷耶驳回了Databricks的撤案动议,裁定原告(包括多位畅销书作者及一位普利策奖决赛入围者)有充分依据继续推进针对这家数据分析平台的诉讼。
Databricks旗下大语言模型DBRX,是在其2023年收购MosaicLM后整合相关技术构建而成的。MosaicLM早期模型曾使用名为RedPajama的数据集,该数据集包含了Book3数据库的内容,而Book3已因版权侵权问题被从Hugging Face平台下架。Databricks方面的核心论点是:作者们无法证明DBRX的训练数据中实际使用了Book3。
Databricks于2023年7月完成对MosaicLM的收购,并在声明中将其描述为"以顶尖MPT大语言模型著称的领先生成式AI平台"。MosaicLM于2023年5月发布首个MPT模型,并在博客中明确指出训练中使用了RedPajama数据集。2024年3月,Databricks发布DBRX模型时表示,"DBRX的开发由此前负责构建MPT模型系列的Mosaic团队主导"。本案的关键,正在于这两个步骤之间的关联程度。
布雷耶法官在裁决中写道,原告"将其受侵权作品直接与DBRX相关联,而结合上下文来看,员工陈述提供了有力的支持性推断,尤其是与其他更为直接的陈述相互印证时,这一点更为明显。"
尽管Databricks提交了14份证人证词、数千页文件及TB级别的证据,试图证明自身并无不当行为,但布雷耶法官认为现有信息仍不充分。版权律师、倡导版权法平衡的联盟组织Re:Create执行主任布兰登·巴特勒表示:"法官基本上是在说,'在我们认定你们没有从事任何侵权复制行为之前,我们需要了解更多信息。我们对实际发生了什么还不够清楚——他们一步一步究竟做了什么?'"
巴特勒还指出,若作者们能够证明侵权行为系故意为之,Databricks面临的赔偿金额将极为巨大。"版权法中的赔偿条款极为严苛,可以说是大写的严苛——每部受侵权作品的赔偿金额高达六位数,上限为15万美元。这是关乎公司生死存亡的诉讼。如果原告胜诉,所获赔偿可能足以清算这些公司的全部资产,对于Databricks这样体量相对较小的企业而言尤为如此。"
目前已有多位作者加入诉讼,其中包括青少年畅销书作者贾森·雷诺兹、斯图尔特·奥南、布莱恩·基恩,以及凭借《伟大的信徒》入围普利策奖决赛的丽贝卡·马凯。
Meta去年赢得了一场类似的诉讼,成功以合理使用原则为其LLAMA模型的训练行为进行辩护。Anthropic也在另一起案件中以相同理由胜诉,但因确实摄入了盗版书籍,同意设立15亿美元基金对作者进行补偿。
然而,Databricks至今尚未援引合理使用原则进行辩护。其此前撤案动议称原告的诉状"荒谬",认为其涵盖的行为发生在DBRX训练之前。Databricks的律师援引汽车专利作为类比:"如果一家汽车公司在研发排放技术时曾使用某专利部件进行实验,但最终生产的汽车并不包含该部件,那么专利持有人能否仅凭此前的实验主张侵权?"
对此,原告方反驳称:"在开发DBRX模型的过程中,Databricks多次复制了Book3的内容,直接侵犯了原告对相关作品享有的版权。按照被告的逻辑,只要AI公司未将受版权保护的书籍纳入模型最终训练数据集,就可以随意下载、存储、复制并无限期使用盗版作品。这种逻辑完全本末倒置。"
巴特勒认为,Databricks还有两条可行路径:一是援引合理使用原则——该论点在同一联邦法院已有成功先例;二是主张作者无法证明实际损害,因而不具备起诉资格。他说:"也许有用的论点是:'那些书籍当时发生的一切,从未产生任何影响,对我们的模型没有任何作用,那是一个错误,我们已经纠正,它在现实中没有留下任何痕迹。那我们为什么还在这里?但我认为这是他们需要证明的事情,而他们目前还没有做到。'"
Q&A
Q1:Databricks的DBRX大语言模型为什么会涉及版权侵权诉讼?
A:Databricks于2023年收购了MosaicLM,后者早期模型训练中使用了RedPajama数据集,该数据集包含Book3数据库内容,涵盖约19.6万部书籍,其中包含大量受版权保护的作品的盗版内容。Book3已因版权问题从Hugging Face下架。由于DBRX的开发由MosaicLM团队主导,多位作者认为其作品遭到侵权,因此提起集体诉讼。
Q2:Databricks如果败诉,赔偿金额会有多高?
A:根据美国版权法的赔偿条款,每部受侵权作品的赔偿金额最高可达15万美元。考虑到本次诉讼涉及约19.6万部书籍,若法院认定侵权行为属于故意为之,理论上总赔偿金额将极为惊人,有版权律师将其描述为"关乎公司生死存亡的诉讼",赔偿金额甚至可能足以清算Databricks的全部资产。
Q3:其他AI公司在类似版权诉讼中是如何应对的?
A:Meta和Anthropic均以"合理使用"原则成功应对了类似诉讼。Meta在涉及LLAMA模型的诉讼中胜诉;Anthropic虽同样胜诉,但承认摄入了盗版书籍,并同意设立15亿美元基金补偿作者。目前Databricks尚未援引合理使用原则进行辩护,这被视为其策略上的潜在失误。
好文章,需要你的鼓励
企业AI搜索公司Glean宣布年度经常性收入(ARR)达3亿美元,较15个月前的1亿美元增长三倍。尽管谷歌、微软、OpenAI等科技巨头纷纷入局企业AI搜索市场,Glean凭借"上下文图谱"技术深度理解企业业务需求,并帮助客户显著降低AI计算成本。该公司提供按用量计费和混合定价两种模式,客户涵盖Databricks、Reddit、Pinterest及三星等企业。Glean上轮融资后估值达72亿美元。
香港中文大学与MiniMax提出ClaimDiff-RL框架,将图像描述的AI训练从整体打分升级为逐条核查,有效解决了传统方式导致AI"少说保平安"的问题,同时在多项基准测试上超越Gemini-3-Pro-Preview。
杰夫·贝索斯旗下的蓝色起源公司在佛罗里达卡纳维拉尔角进行静态点火测试时,新格伦重型火箭发生爆炸。这是美国历史上最大规模的火箭爆炸之一,也是蓝色起源公司遭遇的最严重失败。所有人员安全,但该事故可能导致新格伦火箭项目长期暂停。此前该火箭已成功完成三次发射,并实现了助推器回收和重复使用。
ParaVT是一个由南洋理工等多校联合提出的并行视频工具调用框架,通过让AI同时分析多段视频并引入PARA-GRPO算法解决训练中的格式崩溃与工具跳过问题,在六项长视频理解测试中平均提升约7.9%。