网络出版商联合推出RSL标准,要求AI公司按输出付费

多家知名互联网公司和出版商推出"真正简单许可"(RSL)标准,旨在通过增强robots.txt指令来阻止未经许可抓取内容的AI爬虫。该开放标准支持多种付费模式,包括按爬取付费和按推理付费,要求AI公司为使用的内容向创作者支付报酬。标准基于RSS技术,可保护网页、书籍、视频等数字内容。虽然AI公司尚未明确回应,但支持者认为这将建立可持续的内容生态系统。

领先的互联网公司和出版商——包括Reddit、Yahoo、Quora、Medium、The Daily Beast、Fastly等——认为终于找到了阻止AI爬虫在未经许可或补偿的情况下抓取网站内容的解决方案。

周三上午宣布的"真正简单许可"(RSL)标准通过添加自动化许可层来升级robots.txt指令,旨在阻止那些不公平补偿创作者内容的机器人。

据新闻稿称,RSL标准是一个开放的去中心化协议,从今天开始免费供任何出版商使用,它向AI爬虫和智能体明确了许可、使用和补偿任何用于训练AI的内容的条款。

该标准由RSL集体创建,该组织由Ask.com前首席执行官Doug Leeds和前Yahoo产品副总裁、RSS标准联合创建者Eckart Walther共同创立,RSS标准使得内容在网络上的聚合变得容易。

基于"真正简单聚合"(RSS)标准,RSL条款可以应用于保护任何数字内容,包括网页、书籍、视频和数据集。新闻稿表示,新标准支持"一系列许可、使用和版税模式,包括免费、署名、订阅、按爬取付费(出版商在AI应用每次爬取其内容时获得补偿)和按推理付费(出版商在AI应用每次使用其内容生成响应时获得补偿)"。

Leeds告诉Ars,使用RSS"策略"来推出RSL标准的想法产生于去年年底,当时他邀请Walther为加州大学伯克利分校的学生演讲。这对具有搜索背景的老朋友开始思考AI如何改变了搜索行业,因为今天的出版商被迫与引用他们自己内容的AI输出竞争,而搜索流量却在急剧下降。

Eckart见证了RSS标准被数百万网站快速采用,他意识到RSS实际上一直都是一个许可标准,Leeds说。本质上,通过采用RSS标准,出版商同意让搜索引擎许可他们内容的"一部分"以换取搜索流量,Eckart意识到以同样的方式添加AI许可条款同样简单明了。这样,出版商可以通过同意许可全部或部分内容来训练AI,并在AI输出链接到他们的内容时获得付费,从而努力重新获得失去的搜索收入。

Leeds告诉Ars,RSL标准不仅仅有利于出版商。它还解决了AI公司的问题,这些公司在AI抓取相关诉讼中抱怨说没有有效的方式在网络上许可内容。

"我们倾听了他们的声音,我们听到他们说...我们需要一个新的协议,"Leeds说。通过RSL标准,AI公司获得了"获取所有想要内容的可扩展方式",同时设定了一个激励机制,他们只需要为其模型实际引用的最佳内容付费。

"如果他们使用它,他们就为此付费,如果他们不使用它,他们就不付费,"Leeds说。

目前还无法确定AI公司将如何回应RSL标准。Ars联系了Google、Meta、OpenAI和xAI——这些大型科技公司的爬虫已经引起了审查——以了解为每个引用其内容的输出向出版商付费在技术上是否可行。xAI没有回应,其他公司在没有标准详细信息的情况下拒绝评论,似乎尚未考虑许可层如何增强robots.txt并影响他们的抓取。

今天可能是AI公司第一次有机会思考按输出向出版商付费的想法。Leeds确认RSL集体在制定RSL标准时没有咨询AI公司。

但AI公司知道他们需要持续的新鲜内容流来保持工具的相关性并不断创新,Leeds建议。从这个角度来看,RSL标准"支持支持他们的东西",Leeds说,"它创造了适当的激励系统",为创作者创造可持续的版税流,并确保随着AI的发展,人类创造力不会减弱。

虽然我们必须等待看AI公司如何回应RSL,但标准的早期采用者今天庆祝了这一发布。其中包括People Inc.首席执行官Neil Vogel,他说"RSL推动行业向前发展——从简单地阻止未经授权的爬虫演变为在全球网络规模上为所有AI用例设定我们的许可条款。"

Fastly联合创始人Simon Wistow认为这个解决方案"是对网络经济变化的及时和必要的回应"。

"通过使出版商轻松定义和执行许可条款,RSL为健康的内容生态系统奠定了基础——在这个生态系统中,原创作品的创新和投资得到回报,出版商和AI公司之间的合作变得无摩擦且互利,"Wistow说。

Leeds指出,RSL标准的一个关键好处是,即使是小创作者现在也有机会通过帮助训练AI来产生收入。Medium首席执行官Tony Stubblebine在解释博主面临的战斗时毫不掩饰,因为AI爬虫威胁要在不补偿他们的情况下转移他们的流量。

"现在,AI运行在被盗内容上,"Stubblebine说。"采用这个RSL标准是我们迫使那些AI公司要么为他们使用的内容付费,要么停止使用它,要么关闭的方式。"

在RSL标准网站上,出版商可以找到通用条款,将模板化或定制文本添加到他们的robots.txt文件中,以今天就采用RSL标准并开始保护他们的内容免受无限制的AI抓取。以下是机器可读许可条款的示例,直接添加到robots.txt文件中:

# 注意:严格禁止所有爬虫和机器人在不遵守RSL集体AI版税许可条款的情况下使用此内容进行AI训练。在没有许可的情况下将此内容用于AI训练是对我们知识产权的侵犯。

许可:https://rslcollective.org/royalty.xml

通过RSL条款,出版商可以自动化许可,云公司Fastly与该集体合作提供技术执行,Leeds将其描述为充当保镖的技术,以阻止未经批准的机器人接触有价值的内容。似乎Cloudflare也可能帮助执行RSL标准,该公司在7月启动了阻止贪婪爬虫的按爬取付费程序。

对于出版商来说,该标准"立即解决了业务问题,"Leeds告诉Ars,因此集体希望RSL将被快速和广泛采用。作为进一步的激励,出版商还可以依靠RSL标准"轻松加密和许可未发布的专有内容给AI公司,包括付费墙文章、书籍、视频、图像和数据,"RSL集体网站说,这可能会扩大AI公司的数据池。

除了技术执行外,Leeds说出版商和内容创作者可以在法律上执行这些条款,指出最近15亿美元的Anthropic和解表明,如果你不"合法地"训练AI,"真的有钱在stake"。

如果行业采用该标准,它可能"为所有出版商建立公平的市场价格并加强谈判影响力,"新闻稿说。Leeds指出,法规跟随行业解决方案是很常见的(考虑数字千年版权法)。由于RSL集体已经在与立法者谈话,Leeds认为"有充分理由相信"AI公司很快就会"被迫承认"该标准。

"但比这更好的是,"Leeds说,"采用该标准符合他们的利益。"

通过RSL,AI公司可以大规模许可内容"以一种公平的方式[并]保护他们需要的内容以使其产品继续创新。"

此外,RSL标准可能解决一个在这个早期阶段有风险削弱对AI信任和兴趣的问题。

Leeds指出,目前AI输出不能为提示提供"最佳答案",而是依赖于将来自不同来源的答案混合起来,以避免从一个网站获取太多内容。这意味着AI公司不仅"花费大量资金在计算成本上来做到这一点",而且AI工具在"混合"源材料的过程中也可能更容易产生幻觉,"以制造出不是最佳答案的东西,因为他们没有最佳答案的权利。"

"最佳答案可能存在于某个地方,"Leeds说。但"他们花费数十亿美元来创造幻觉,而我们在谈论:让我们用一个许可方案来解决这个问题,该方案允许你以最好地解决用户查询的方式使用实际内容。"

通过用"实际可持续和公平"的标准来转换"生态系统",Leeds说AI公司也可以确保人类永远不会到达"人类停止生产"并"转向AI来复制人类不能做的事情"的地步。

Leeds建议,未能采用RSL标准对AI创新不利,可能为AI用"某种自我实现的糟糕内容交换"来替代搜索铺平道路,这种交换"实际上没有任何当前信息,没有任何当前思维,因为它都基于旧的训练信息。"

对Leeds来说,RSL标准最终"是关于创造允许开放网络继续存在的系统。当我们获得每个人的采用时,这就会发生,"他说,坚持"字面上小家伙和大家伙一样重要",推动整个行业改变并公平补偿创作者。

Q&A

Q1:RSL标准是什么?它能解决什么问题?

A:RSL(真正简单许可)标准是一个开放的去中心化协议,通过升级robots.txt指令添加自动化许可层,旨在阻止AI爬虫在未经许可或补偿的情况下抓取网站内容,并为出版商和AI公司建立公平的内容使用和补偿机制。

Q2:RSL标准支持哪些付费模式?

A:RSL标准支持多种许可和版税模式,包括免费、署名、订阅、按爬取付费(AI应用每次爬取内容时出版商获得补偿)和按推理付费(AI应用每次使用内容生成响应时出版商获得补偿)等模式。

Q3:AI公司会接受RSL标准吗?目前有什么进展?

A:目前AI公司的态度还不明确。Google、Meta、OpenAI等公司在被询问时拒绝评论,似乎还没有考虑过这种许可层对其抓取的影响。不过已有Reddit、Yahoo、Medium等多家知名互联网公司和出版商率先采用了这个标准。

来源:Arstechnica

0赞

好文章,需要你的鼓励

2025

09/11

07:56

分享

点赞

邮件订阅