Databricks版权侵权诉讼难以摆脱,潜在赔偿金额或高达天文数字

Databricks因其大型语言模型DBRX涉嫌使用含盗版书籍的数据集进行训练,面临多位作家提起的集体诉讼。美国加州北区联邦法院法官Charles Breyer驳回了Databricks的撤案动议,认定原告有理由继续诉讼。若法院认定侵权行为属于故意为之,每部作品最高可判赔15万美元,潜在赔偿总额极为惊人,堪称"赌上公司命运"的诉讼。目前Databricks尚未提出"合理使用"抗辩。

Databricks似乎无法从一场版权侵权集体诉讼中脱身。多位书籍作者声称,该公司的大语言模型是借助一个包含约19.6万部书籍盗版内容的数据库训练而成的。

上周,美国加利福尼亚州北区联邦地区法院法官查尔斯·布雷耶驳回了Databricks的撤案动议,裁定原告(包括多位畅销书作者及一位普利策奖决赛入围者)有充分依据继续推进针对这家数据分析平台的诉讼。

Databricks旗下大语言模型DBRX,是在其2023年收购MosaicLM后整合相关技术构建而成的。MosaicLM早期模型曾使用名为RedPajama的数据集,该数据集包含了Book3数据库的内容,而Book3已因版权侵权问题被从Hugging Face平台下架。Databricks方面的核心论点是:作者们无法证明DBRX的训练数据中实际使用了Book3。

Databricks于2023年7月完成对MosaicLM的收购,并在声明中将其描述为"以顶尖MPT大语言模型著称的领先生成式AI平台"。MosaicLM于2023年5月发布首个MPT模型,并在博客中明确指出训练中使用了RedPajama数据集。2024年3月,Databricks发布DBRX模型时表示,"DBRX的开发由此前负责构建MPT模型系列的Mosaic团队主导"。本案的关键,正在于这两个步骤之间的关联程度。

布雷耶法官在裁决中写道,原告"将其受侵权作品直接与DBRX相关联,而结合上下文来看,员工陈述提供了有力的支持性推断,尤其是与其他更为直接的陈述相互印证时,这一点更为明显。"

尽管Databricks提交了14份证人证词、数千页文件及TB级别的证据,试图证明自身并无不当行为,但布雷耶法官认为现有信息仍不充分。版权律师、倡导版权法平衡的联盟组织Re:Create执行主任布兰登·巴特勒表示:"法官基本上是在说,'在我们认定你们没有从事任何侵权复制行为之前,我们需要了解更多信息。我们对实际发生了什么还不够清楚——他们一步一步究竟做了什么?'"

巴特勒还指出,若作者们能够证明侵权行为系故意为之,Databricks面临的赔偿金额将极为巨大。"版权法中的赔偿条款极为严苛,可以说是大写的严苛——每部受侵权作品的赔偿金额高达六位数,上限为15万美元。这是关乎公司生死存亡的诉讼。如果原告胜诉,所获赔偿可能足以清算这些公司的全部资产,对于Databricks这样体量相对较小的企业而言尤为如此。"

目前已有多位作者加入诉讼,其中包括青少年畅销书作者贾森·雷诺兹、斯图尔特·奥南、布莱恩·基恩,以及凭借《伟大的信徒》入围普利策奖决赛的丽贝卡·马凯。

Meta去年赢得了一场类似的诉讼,成功以合理使用原则为其LLAMA模型的训练行为进行辩护。Anthropic也在另一起案件中以相同理由胜诉,但因确实摄入了盗版书籍,同意设立15亿美元基金对作者进行补偿。

然而,Databricks至今尚未援引合理使用原则进行辩护。其此前撤案动议称原告的诉状"荒谬",认为其涵盖的行为发生在DBRX训练之前。Databricks的律师援引汽车专利作为类比:"如果一家汽车公司在研发排放技术时曾使用某专利部件进行实验,但最终生产的汽车并不包含该部件,那么专利持有人能否仅凭此前的实验主张侵权?"

对此,原告方反驳称:"在开发DBRX模型的过程中,Databricks多次复制了Book3的内容,直接侵犯了原告对相关作品享有的版权。按照被告的逻辑,只要AI公司未将受版权保护的书籍纳入模型最终训练数据集,就可以随意下载、存储、复制并无限期使用盗版作品。这种逻辑完全本末倒置。"

巴特勒认为,Databricks还有两条可行路径:一是援引合理使用原则——该论点在同一联邦法院已有成功先例;二是主张作者无法证明实际损害,因而不具备起诉资格。他说:"也许有用的论点是:'那些书籍当时发生的一切,从未产生任何影响,对我们的模型没有任何作用,那是一个错误,我们已经纠正,它在现实中没有留下任何痕迹。那我们为什么还在这里?但我认为这是他们需要证明的事情,而他们目前还没有做到。'"

Q&A

Q1:Databricks的DBRX大语言模型为什么会涉及版权侵权诉讼?

A:Databricks于2023年收购了MosaicLM,后者早期模型训练中使用了RedPajama数据集,该数据集包含Book3数据库内容,涵盖约19.6万部书籍,其中包含大量受版权保护的作品的盗版内容。Book3已因版权问题从Hugging Face下架。由于DBRX的开发由MosaicLM团队主导,多位作者认为其作品遭到侵权,因此提起集体诉讼。

Q2:Databricks如果败诉,赔偿金额会有多高?

A:根据美国版权法的赔偿条款,每部受侵权作品的赔偿金额最高可达15万美元。考虑到本次诉讼涉及约19.6万部书籍,若法院认定侵权行为属于故意为之,理论上总赔偿金额将极为惊人,有版权律师将其描述为"关乎公司生死存亡的诉讼",赔偿金额甚至可能足以清算Databricks的全部资产。

Q3:其他AI公司在类似版权诉讼中是如何应对的?

A:Meta和Anthropic均以"合理使用"原则成功应对了类似诉讼。Meta在涉及LLAMA模型的诉讼中胜诉;Anthropic虽同样胜诉,但承认摄入了盗版书籍,并同意设立15亿美元基金补偿作者。目前Databricks尚未援引合理使用原则进行辩护,这被视为其策略上的潜在失误。

来源:The Register

0赞

好文章,需要你的鼓励

2026

05/07

10:07

分享

点赞

邮件订阅