根据最新的法庭文件显示,Meta 被指控为了训练其 AI 模型,从一个因侵犯版权而被起诉的在线资源库下载了大量内容。
这项指控出现在 Richard Kadrey 等人诉 Meta Platforms 的案件文件中。小说家 Kadrey (以及包括喜剧演员 Sarah Silverman 在内的其他人) 声称他们的作品的盗版被用于训练 AI 模型。目前已有多起类似诉讼,针对不同的 AI 企业。
文件称,Meta 决定从 Library Genesis (简称 "LibGen") 下载文档来训练其模型。LibGen 正面临教科书出版商的诉讼,这些出版商认为它随意托管和分发盗版作品,甚至接受捐款来资助其运营。
Kadrey 案件原告提交的文件显示,Meta 在证据开示过程中提供的文件描述了公司内部关于访问 LibGen 的争论,对在办公室使用 BitTorrent 的些许顾虑,以及最终上报给 "MZ" 并获得批准使用这个有争议的资源。文件指出,有关使用 LibGen 的证据是新发现的,是 Meta 在证据开示过程后期才提供的。
另一份文件声称,Meta 的一份文档描述了如何删除从 LibGen 下载的材料中的版权声明,并暗示公司这样做是因为意识到包含此类文本可能会导致模型的输出显示它是用受版权保护的材料训练的。
Meta 提交的第三份文件则辩称,原告无理地声称使用 LibGen 是新材料,并坚称这些信息已在记录中存在数月之久。
此事的关键似乎是原告试图利用 Meta 使用 LibGen 的信息,根据《加利福尼亚州综合计算机数据访问和欺诈法案》提起诉讼。该法律规定,未经许可访问计算机或网络并意图欺诈或实施其他犯罪行为属于犯罪。Meta 认为这项额外的诉讼理由不成立。
Meta 的文件包含一份声明,称公司"拒绝接受其'分发'了 LibGen 的说法",似乎是为了回应原告认为仅使用 BitTorrent 就意味着传播盗版内容的论点。但我们没有找到否认访问 LibGen 的声明。
Meta 试图以商业敏感性为由要求封存我们上面链接的文件。但案件的法官驳回了这一请求,认为 Meta 只是想避免公众关注。
美国地方法院法官 Vince Chhabria 还指出,在 Meta 想要封存的一份文件中,一名员工写道:
"如果媒体报道暗示我们使用了已知是盗版的数据集(如 LibGen),这可能会削弱我们在这些问题上与监管机构的谈判地位。"
考虑到 Meta 的商业模式建立在用户贡献的免费内容之上,这个使用 LibGen 的指控与其品牌形象非常吻合。为什么要对那些讨厌的作者另眼相看呢?
好文章,需要你的鼓励
穆拉蒂时隔18个月首次接受重大媒体采访,介绍其创立的Thinking Machines Lab正在开发的"交互模型"。该模型能以200毫秒间隔处理音频、文本和视频流,捕捉人类交流中的中断、修正和停顿。她还谈及OpenAI"政变周"经历,强调行业决策权过于集中的担忧,并回应了公司近期研究人员离职问题,表示这是初创实验室的正常波动。
STATE16研究院这篇综述发现,物理AI系统存在"静默失效"风险——AI以高度自信执行基于错误世界信息的动作,却不触发任何报警,并提出在AI输出与物理执行之间建立独立授权层的框架。
本期《Quick Charge》播客涵盖多个热点话题:特斯拉疑似试图删除FSD欺诈相关证据以规避巨额赔付;卡特彼勒持续推进建筑领域电气化布局;住宅太阳能30%税收抵免即将到期。此外,嘉宾Tom Pacheco就高压系统与电池技术培训展开探讨,强调电动车技术人才培养的紧迫性。节目同时提醒有意安装太阳能的用户尽快行动,可通过EnergySage平台比较多家安装商报价。
UIUC与微软联合研发的OpenWebRL框架让4B小模型仅凭400条初始数据,通过在真实网站上边做边学的强化学习方式,在网页智能体基准上超越了用27万条数据训练的竞争对手。