Mozilla数据合作社:以信任为基础重构AI数据经济

Mozilla数据协作组织致力于解决生成式AI的数据困境。该组织由Mozilla基金会提供1000万美元初始资金,于去年11月正式成立,旨在建立一个以社区所有权、用户同意和公平价值交换为核心的AI数据市场。平台现已收录逾300种语言的精选数据集,覆盖阿富汗哈扎拉语文学、喀麦隆马达语口述历史等稀缺资源。数据贡献者可自主决定数据使用方式,并获得完整收益,平台另收取基础设施费用。

生成式AI面临数据困境。

多年来,构建生成式AI模型的惯常做法是通过大规模抓取互联网数据来尽可能多地收集信息,以海量规模进行训练,然后再应对由此带来的种种后果。这种方式催生了日益强大的技术,却也引发了对偏见、数据使用授权、所有权归属,以及数据所创造价值分配不均等问题的广泛担忧。

Mozilla数据合作社(Mozilla Data Collective)正是为填补这一模式的缺口而生。

这一组织于去年11月正式成立,致力于围绕社区所有权、知情同意以及创始人兼首席执行官E.M. Lewis-Jong所称的"公平价值交换"原则,构建一种全新的AI数据市场。

Lewis-Jong在近期的一封电子邮件采访中表示:"我们需要干净、充足、具有语境化且经过授权的数据集,才能构建真正有价值的AI模型。这是一个深层次的结构性问题,需要从结构上寻求解决方案。"

Lewis-Jong指出,通过无差别网络抓取所汇集的数据集,往往会复制和放大网络上已存在的局限性与偏见。大量语言、文化和社群在现代AI系统中仍处于严重代表不足的状态,而许多内容创作者对自己的作品如何被使用几乎毫不知情。与此同时,全球各国政府正日益加强对大规模数据采集行为法律合规性的审查,给科技公司带来了新的合规挑战。

Mozilla数据合作社通过将社区直接纳入数据供应链来解决上述问题。该组织不再将数据视为可被任意提取的资源,而是认为数据应始终处于创造者的掌控之下。

起源于语音数据

这一理念的萌生,部分源于Mozilla在Common Voice项目上的实践经验。Common Voice是Mozilla长期推行的一项倡议,旨在面向全球志愿者征集语音数据。该项目证明,当人们相信自己的贡献具有实质意义、并在项目治理中拥有话语权时,他们是愿意主动贡献数据的。迄今为止,已有逾50万名贡献者参与了数百种语言的数据采集工作,共同打造了全球规模最大的公开语音数据集之一。

然而,生成式AI的兴起使这一局面变得更加复杂。那些曾积极贡献数据的社区,开始对开放数据集在被纳入日益集中且不透明的AI生态系统后,最终利益归属问题提出了更为尖锐的质疑。部分社区依然倾向于完全开放的授权模式,另一些则希望获得更高透明度、更强的控制权或相应报酬。为此,Mozilla数据合作社制定了相应的许可协议与政策,以适应这些不同的需求。

在该组织的模式中,数据主权并不必然意味着限制访问,而是赋予社区自主决定数据使用方式的权利。贡献者可以选择开放共享、要求署名、将使用范围限定于教育或研究目的、限制特定地区访问,或要求获得相应报酬。其核心原则是:这些决定权归属于数据的创造者,而非中间平台。

该组织认为,随着AI系统逐步向历史上长期受到科技公司忽视的语言和文化领域延伸,这种理念的重要性日益凸显。

目前,该合作社已托管数百个经过精心整理的数据集,涵盖超过300种语言,其中包括来自阿富汗的哈扎拉吉文学、喀麦隆马达语口述历史,以及瑞士的罗曼什语报纸。这些资源中,许多通过传统商业数据渠道根本难以获取,甚至完全无迹可寻。

"使命锁定"的企业形态

该组织独特的治理结构,旨在强化并保障其使命的贯彻落实。Mozilla数据合作社采用Lewis-Jong所描述的"使命锁定英国社会企业"形式运营。他表示:"我们的使命已从多个层面深度嵌入治理结构之中。我们存在的意义,在于赋予社区对其数据的所有权与自主权,并让他们能够在自身主导下定义和推动公平价值交换。"

选择这一形式,是为了规避传统非营利组织和传统营利性企业模式各自存在的弊端。非营利组织往往难以在规模化层面建立可持续的基础设施,而风险投资支持的初创公司则面临将增长与商业变现置于社区利益之上的压力。

该合作社的成功与否,既以财务表现衡量,也以使命相关目标加以评估。Lewis-Jong表示,这种双重导向至关重要,因为许多科技公司最终都会在既定使命与营收模式所产生的利益驱动之间出现张力。"我们须同时对双重底线负责,"他说,"如果我们未能达成使命阶段性目标,我们就没有资格继续存在。"

凭借Mozilla基金会提供的1000万美元初始资金,Mozilla数据合作社在营收方面拥有一定的腾挪空间。该组织不从社区选择收取的数据集费用中抽取佣金,贡献者可获得全额报酬,而下载方则需单独支付平台费用,用于覆盖基础设施与运营成本。Lewis-Jong表示,此举旨在推动透明度与集体议价机制,有别于数据市场中普遍存在的不透明中介模式。

创作者掌握主动权

该组织同样高度重视数据的整理工作与质量管控。每一家参与机构及其数据集在被接收上架之前,均须经过严格审核。若上传者不持有相应权利,受版权保护的内容将被拒之门外,且"合理使用"主张也不足以作为分发的正当依据。平台综合运用法律、技术与社区层面的多重保障机制,旨在为用户提供清晰的数据来源信息与使用授权说明。

平台近期推出的新功能,进一步强化了数据贡献者在访问控制与报酬获取方面的自主权。新功能包括:允许数据集所有者审批访问申请的工具、帮助开发者发现相关数据集的对话式助手,以及即将上线的报酬结算系统——该系统将允许贡献者自主设定许可条款与定价标准。

Lewis-Jong表示,该组织的长远愿景,并非直接与当前主导AI训练数据管道的大型数据经纪商正面竞争,而是打造一种替代模式,将开发者与那些长期被主流数据市场忽视的社区群体连接起来。他将这一平台定位为"桥梁"而非"中间商"。

Mozilla数据合作社坚信,AI的未来所需要的,不仅仅是更大的模型与更海量的数据集,更需要在创新与授权同意、广泛参与和信任之间寻求平衡的新型机制与组织,以确保数据创造者在决定其数据使用方式的过程中,真正拥有不可或缺的话语权。

Q&A

Q1:Mozilla数据合作社是什么?它的核心目标是什么?

A:Mozilla数据合作社是Mozilla基金会于2023年11月成立的一个"使命锁定"社会企业,核心目标是围绕社区所有权、知情同意与公平价值交换,构建一种新型AI数据市场。它不从社区数据交易中抽佣,致力于让数据创造者掌握自己数据的控制权与收益权,同时填补当前AI数据采集模式中存在的偏见、透明度与合规等方面的缺陷。

Q2:Mozilla数据合作社与传统数据经纪商有何不同?

A:传统数据经纪商通常以不透明的中介方式运作,平台从交易中抽取佣金,数据创造者几乎没有话语权。Mozilla数据合作社则采用完全不同的模式:贡献者获得数据销售的全额报酬,下载方单独支付平台费用;贡献者可自主选择开放共享、要求署名、限制使用范围或设定定价,数据主权归属于创造者,而非平台。该组织将自身定位为"桥梁"而非"中间商"。

Q3:Mozilla数据合作社目前涵盖哪些类型的数据集?

A:该合作社目前托管数百个经过精心整理的数据集,覆盖超过300种语言,包含大量被主流数据市场忽视的稀缺资源,例如阿富汗哈扎拉吉文学、喀麦隆马达语口述历史、瑞士罗曼什语报纸等。其数据来源还包括Mozilla旗下Common Voice项目积累的大规模语音数据,该项目已吸引逾50万名志愿者参与。

来源:SiliconANGLE

0赞

好文章,需要你的鼓励

2026

06/15

08:12

分享

点赞

邮件订阅