根据最新的法庭文件显示,Meta 被指控为了训练其 AI 模型,从一个因侵犯版权而被起诉的在线资源库下载了大量内容。
这项指控出现在 Richard Kadrey 等人诉 Meta Platforms 的案件文件中。小说家 Kadrey (以及包括喜剧演员 Sarah Silverman 在内的其他人) 声称他们的作品的盗版被用于训练 AI 模型。目前已有多起类似诉讼,针对不同的 AI 企业。
文件称,Meta 决定从 Library Genesis (简称 "LibGen") 下载文档来训练其模型。LibGen 正面临教科书出版商的诉讼,这些出版商认为它随意托管和分发盗版作品,甚至接受捐款来资助其运营。
Kadrey 案件原告提交的文件显示,Meta 在证据开示过程中提供的文件描述了公司内部关于访问 LibGen 的争论,对在办公室使用 BitTorrent 的些许顾虑,以及最终上报给 "MZ" 并获得批准使用这个有争议的资源。文件指出,有关使用 LibGen 的证据是新发现的,是 Meta 在证据开示过程后期才提供的。
另一份文件声称,Meta 的一份文档描述了如何删除从 LibGen 下载的材料中的版权声明,并暗示公司这样做是因为意识到包含此类文本可能会导致模型的输出显示它是用受版权保护的材料训练的。
Meta 提交的第三份文件则辩称,原告无理地声称使用 LibGen 是新材料,并坚称这些信息已在记录中存在数月之久。
此事的关键似乎是原告试图利用 Meta 使用 LibGen 的信息,根据《加利福尼亚州综合计算机数据访问和欺诈法案》提起诉讼。该法律规定,未经许可访问计算机或网络并意图欺诈或实施其他犯罪行为属于犯罪。Meta 认为这项额外的诉讼理由不成立。
Meta 的文件包含一份声明,称公司"拒绝接受其'分发'了 LibGen 的说法",似乎是为了回应原告认为仅使用 BitTorrent 就意味着传播盗版内容的论点。但我们没有找到否认访问 LibGen 的声明。
Meta 试图以商业敏感性为由要求封存我们上面链接的文件。但案件的法官驳回了这一请求,认为 Meta 只是想避免公众关注。
美国地方法院法官 Vince Chhabria 还指出,在 Meta 想要封存的一份文件中,一名员工写道:
"如果媒体报道暗示我们使用了已知是盗版的数据集(如 LibGen),这可能会削弱我们在这些问题上与监管机构的谈判地位。"
考虑到 Meta 的商业模式建立在用户贡献的免费内容之上,这个使用 LibGen 的指控与其品牌形象非常吻合。为什么要对那些讨厌的作者另眼相看呢?
好文章,需要你的鼓励
生成式AI在电商领域发展迅速,但真正的客户信任来自可靠的购物体验。数据显示近70%的在线购物者会放弃购物车,主要因为结账缓慢、隐藏费用等问题。AI基础设施工具正在解决这些信任危机,通过实时库存监控、动态结账优化和智能物流配送,帮助商家在售前、售中、售后各环节提升可靠性,最终将一次性买家转化为忠实客户。
泰国SCBX金融集团开发的DoTA-RAG系统通过动态路由和混合检索技术,成功解决了大规模知识库检索中速度与准确性难以兼得的难题。系统将1500万文档的搜索空间缩小92%,响应时间从100秒降至35秒,正确性评分提升96%,为企业级智能问答系统提供了实用的技术方案。
存储供应商Qumulo发布多租户架构Stratus,为每个租户提供独立的虚拟环境,通过加密技术和租户专用密钥管理系统实现隔离。该统一文件和对象存储软件支持本地、边缘、数据中心及AWS、Azure等云环境部署。Stratus采用加密隔离技术确保敏感数据安全,同时提供任务关键操作所需的灵活性和效率,帮助联邦和企业客户满足合规要求。
中科院和字节跳动联合开发了VGR视觉锚定推理系统,突破了传统AI只能粗略"看图"的局限。该系统能在推理过程中主动关注图片关键区域,像人类一样仔细观察细节后再得出结论。实验显示VGR在图表理解等任务上性能大幅提升,同时计算效率更高,代表了多模态AI"可视化推理"的重要进展。