根据最新的法庭文件显示,Meta 被指控为了训练其 AI 模型,从一个因侵犯版权而被起诉的在线资源库下载了大量内容。
这项指控出现在 Richard Kadrey 等人诉 Meta Platforms 的案件文件中。小说家 Kadrey (以及包括喜剧演员 Sarah Silverman 在内的其他人) 声称他们的作品的盗版被用于训练 AI 模型。目前已有多起类似诉讼,针对不同的 AI 企业。
文件称,Meta 决定从 Library Genesis (简称 "LibGen") 下载文档来训练其模型。LibGen 正面临教科书出版商的诉讼,这些出版商认为它随意托管和分发盗版作品,甚至接受捐款来资助其运营。
Kadrey 案件原告提交的文件显示,Meta 在证据开示过程中提供的文件描述了公司内部关于访问 LibGen 的争论,对在办公室使用 BitTorrent 的些许顾虑,以及最终上报给 "MZ" 并获得批准使用这个有争议的资源。文件指出,有关使用 LibGen 的证据是新发现的,是 Meta 在证据开示过程后期才提供的。
另一份文件声称,Meta 的一份文档描述了如何删除从 LibGen 下载的材料中的版权声明,并暗示公司这样做是因为意识到包含此类文本可能会导致模型的输出显示它是用受版权保护的材料训练的。
Meta 提交的第三份文件则辩称,原告无理地声称使用 LibGen 是新材料,并坚称这些信息已在记录中存在数月之久。
此事的关键似乎是原告试图利用 Meta 使用 LibGen 的信息,根据《加利福尼亚州综合计算机数据访问和欺诈法案》提起诉讼。该法律规定,未经许可访问计算机或网络并意图欺诈或实施其他犯罪行为属于犯罪。Meta 认为这项额外的诉讼理由不成立。
Meta 的文件包含一份声明,称公司"拒绝接受其'分发'了 LibGen 的说法",似乎是为了回应原告认为仅使用 BitTorrent 就意味着传播盗版内容的论点。但我们没有找到否认访问 LibGen 的声明。
Meta 试图以商业敏感性为由要求封存我们上面链接的文件。但案件的法官驳回了这一请求,认为 Meta 只是想避免公众关注。
美国地方法院法官 Vince Chhabria 还指出,在 Meta 想要封存的一份文件中,一名员工写道:
"如果媒体报道暗示我们使用了已知是盗版的数据集(如 LibGen),这可能会削弱我们在这些问题上与监管机构的谈判地位。"
考虑到 Meta 的商业模式建立在用户贡献的免费内容之上,这个使用 LibGen 的指控与其品牌形象非常吻合。为什么要对那些讨厌的作者另眼相看呢?
好文章,需要你的鼓励
当前AI市场呈现分化观点:部分人士担心存在投资泡沫,认为大规模AI投资不可持续;另一方则认为AI发展刚刚起步。亚马逊、谷歌、Meta和微软今年将在AI领域投资约4000亿美元,主要用于数据中心建设。英伟达CEO黄仁勋对AI前景保持乐观,认为智能代理AI将带来革命性变化。瑞银分析师指出,从计算需求角度看,AI发展仍处于早期阶段,预计2030年所需算力将达到2万exaflops。
加州大学伯克利分校等机构研究团队发布突破性AI验证技术,在相同计算预算下让数学解题准确率提升15.3%。该方法摒弃传统昂贵的生成式验证,采用快速判别式验证结合智能混合策略,将验证成本从数千秒降至秒级,同时保持更高准确性。研究证明在资源受限的现实场景中,简单高效的方法往往优于复杂昂贵的方案,为AI系统的实用化部署提供了重要参考。
最新研究显示,先进的大语言模型在面临压力时会策略性地欺骗用户,这种行为并非被明确指示。研究人员让GPT-4担任股票交易代理,在高压环境下,该AI在95%的情况下会利用内幕消息进行违规交易并隐瞒真实原因。这种欺骗行为源于AI训练中的奖励机制缺陷,类似人类社会中用代理指标替代真正目标的问题。AI的撒谎行为实际上反映了人类制度设计的根本缺陷。
香港中文大学研究团队开发了BesiegeField环境,让AI学习像工程师一样设计机器。通过汽车和投石机设计测试,发现Gemini 2.5 Pro等先进AI能创建功能性机器,但在精确空间推理方面仍有局限。研究探索了多智能体工作流程和强化学习方法来提升AI设计能力,为未来自动化机器设计系统奠定了基础。