Databricks版权侵权诉讼难以摆脱，潜在赔偿金额或高达天文数字

Databricks因其大型语言模型DBRX涉嫌使用含盗版书籍的数据集进行训练，面临多位作家提起的集体诉讼。美国加州北区联邦法院法官Charles Breyer驳回了Databricks的撤案动议，认定原告有理由继续诉讼。若法院认定侵权行为属于故意为之，每部作品最高可判赔15万美元，潜在赔偿总额极为惊人，堪称"赌上公司命运"的诉讼。目前Databricks尚未提出"合理使用"抗辩。

Databricks似乎无法从一场版权侵权集体诉讼中脱身。多位书籍作者声称，该公司的大语言模型是借助一个包含约19.6万部书籍盗版内容的数据库训练而成的。

上周，美国加利福尼亚州北区联邦地区法院法官查尔斯·布雷耶驳回了Databricks的撤案动议，裁定原告（包括多位畅销书作者及一位普利策奖决赛入围者）有充分依据继续推进针对这家数据分析平台的诉讼。

Databricks旗下大语言模型DBRX，是在其2023年收购MosaicLM后整合相关技术构建而成的。MosaicLM早期模型曾使用名为RedPajama的数据集，该数据集包含了Book3数据库的内容，而Book3已因版权侵权问题被从Hugging Face平台下架。Databricks方面的核心论点是：作者们无法证明DBRX的训练数据中实际使用了Book3。

Databricks于2023年7月完成对MosaicLM的收购，并在声明中将其描述为"以顶尖MPT大语言模型著称的领先生成式AI平台"。MosaicLM于2023年5月发布首个MPT模型，并在博客中明确指出训练中使用了RedPajama数据集。2024年3月，Databricks发布DBRX模型时表示，"DBRX的开发由此前负责构建MPT模型系列的Mosaic团队主导"。本案的关键，正在于这两个步骤之间的关联程度。

布雷耶法官在裁决中写道，原告"将其受侵权作品直接与DBRX相关联，而结合上下文来看，员工陈述提供了有力的支持性推断，尤其是与其他更为直接的陈述相互印证时，这一点更为明显。"

尽管Databricks提交了14份证人证词、数千页文件及TB级别的证据，试图证明自身并无不当行为，但布雷耶法官认为现有信息仍不充分。版权律师、倡导版权法平衡的联盟组织Re:Create执行主任布兰登·巴特勒表示："法官基本上是在说，'在我们认定你们没有从事任何侵权复制行为之前，我们需要了解更多信息。我们对实际发生了什么还不够清楚——他们一步一步究竟做了什么？'"

巴特勒还指出，若作者们能够证明侵权行为系故意为之，Databricks面临的赔偿金额将极为巨大。"版权法中的赔偿条款极为严苛，可以说是大写的严苛——每部受侵权作品的赔偿金额高达六位数，上限为15万美元。这是关乎公司生死存亡的诉讼。如果原告胜诉，所获赔偿可能足以清算这些公司的全部资产，对于Databricks这样体量相对较小的企业而言尤为如此。"

目前已有多位作者加入诉讼，其中包括青少年畅销书作者贾森·雷诺兹、斯图尔特·奥南、布莱恩·基恩，以及凭借《伟大的信徒》入围普利策奖决赛的丽贝卡·马凯。

Meta去年赢得了一场类似的诉讼，成功以合理使用原则为其LLAMA模型的训练行为进行辩护。Anthropic也在另一起案件中以相同理由胜诉，但因确实摄入了盗版书籍，同意设立15亿美元基金对作者进行补偿。

然而，Databricks至今尚未援引合理使用原则进行辩护。其此前撤案动议称原告的诉状"荒谬",认为其涵盖的行为发生在DBRX训练之前。Databricks的律师援引汽车专利作为类比："如果一家汽车公司在研发排放技术时曾使用某专利部件进行实验，但最终生产的汽车并不包含该部件，那么专利持有人能否仅凭此前的实验主张侵权？"

对此，原告方反驳称："在开发DBRX模型的过程中，Databricks多次复制了Book3的内容，直接侵犯了原告对相关作品享有的版权。按照被告的逻辑，只要AI公司未将受版权保护的书籍纳入模型最终训练数据集，就可以随意下载、存储、复制并无限期使用盗版作品。这种逻辑完全本末倒置。"

巴特勒认为，Databricks还有两条可行路径：一是援引合理使用原则——该论点在同一联邦法院已有成功先例；二是主张作者无法证明实际损害，因而不具备起诉资格。他说："也许有用的论点是：'那些书籍当时发生的一切，从未产生任何影响，对我们的模型没有任何作用，那是一个错误，我们已经纠正，它在现实中没有留下任何痕迹。那我们为什么还在这里？但我认为这是他们需要证明的事情，而他们目前还没有做到。'"

Q&A

Q1：Databricks的DBRX大语言模型为什么会涉及版权侵权诉讼？

A：Databricks于2023年收购了MosaicLM，后者早期模型训练中使用了RedPajama数据集，该数据集包含Book3数据库内容，涵盖约19.6万部书籍，其中包含大量受版权保护的作品的盗版内容。Book3已因版权问题从Hugging Face下架。由于DBRX的开发由MosaicLM团队主导，多位作者认为其作品遭到侵权，因此提起集体诉讼。

Q2：Databricks如果败诉，赔偿金额会有多高？

A：根据美国版权法的赔偿条款，每部受侵权作品的赔偿金额最高可达15万美元。考虑到本次诉讼涉及约19.6万部书籍，若法院认定侵权行为属于故意为之，理论上总赔偿金额将极为惊人，有版权律师将其描述为"关乎公司生死存亡的诉讼"，赔偿金额甚至可能足以清算Databricks的全部资产。

Q3：其他AI公司在类似版权诉讼中是如何应对的？

A：Meta和Anthropic均以"合理使用"原则成功应对了类似诉讼。Meta在涉及LLAMA模型的诉讼中胜诉；Anthropic虽同样胜诉，但承认摄入了盗版书籍，并同意设立15亿美元基金补偿作者。目前Databricks尚未援引合理使用原则进行辩护，这被视为其策略上的潜在失误。

来源：The Register

0赞

好文章，需要你的鼓励

Databricks版权侵权诉讼难以摆脱，潜在赔偿金额或高达天文数字

来源：The Register

2026

05/07

10:07

分享

点赞

Bookshop.org确认今年将推出Kobo电子书阅读器支持

WeWard新增"步行模式"：走够步数才能解锁应用

X将通过私信通知用户其互动帖子被社区笔记纠错

"慢社交"应用Roost：让消息像真鸟一样飞行

Truecaller与印度电信监管机构就反垃圾电话规则展开公开交锋

Block与46州达成4500万美元和解，涉Cash App欺诈纠纷

欧盟威胁对Meta开出罚款，剑指Facebook和Instagram上瘾性设计

Disney+考虑推出免费流媒体内容层级

HyperTexting：将开放网络变成类社交媒体信息流的新应用

TV Time关闭之际，创始人打造新追剧应用Bingers

Telegram短链域名t.me因制裁合规问题短暂下线后已恢复

Apple芯片现不可修复漏洞，或成iPhone越狱突破口

卫星搭载AI实时处理地球影像，Planet Labs实现太空智能识别

智能体AI时代来临，企业需重新审视GPU之外的计算选择

AI真的能帮你有效管理学习时间吗？

Microsoft Word新增法律智能体，专为法律团队量身打造

智能体时代来临，CIO角色将迎来重大转变

谷歌拟斥资400亿美元入股Anthropic，AI算力预售进入吉瓦级时代

Copilot Plus PC与普通PC有何不同？全面解析

OpenAI推出GPT-5.5-Cyber网络安全模型，限定受信用户访问

英国药品和医疗保健产品监管局任命新任首席数字与技术官

预测性AI与人类专业知识的融合：生命科学营销的新范式

如果您非常迫切的想了解IT领域最新产品与技术信息，那么订阅至顶网技术邮件将是您的最佳途径之一

三一集团：数字化是必选项，AI是生存项

因湃电池 × 达索系统：如何共创出一套电池产业最佳实践

AI走进真实世界之后：安全、健康与产业的新命题

CES 2026

关注官方公众号

关注官方微博

关注官方喜马拉雅

友情链接

业界热点: