Cloudflare新规要求AI公司为内容付费,混合爬虫将被默认拦截

Cloudflare宣布,自2026年9月15日起,将默认屏蔽"混合用途"爬虫访问含广告页面,要求AI公司将用于传统搜索的爬虫与用于AI训练及智能代理的爬虫分开。此举影响AI模型提供商获取网页内容的方式。同时,Cloudflare将"按使用付费"模式升级,允许出版商在内容产生价值时向AI公司收费,而非仅限于内容被抓取时。目前已与Ceramic.ai和You.com达成合作。

Cloudflare近日向AI行业发出最新期限通知,要求各AI公司将用于传统搜索(如Google搜索)的网络爬虫,与用于AI智能体及模型训练的爬虫分开运营。该公司于本周三宣布,自2026年9月15日起,Cloudflare的默认设置将封锁所有"混合用途"爬虫对含广告页面的访问。

这意味着,将搜索、智能体服务与模型训练融合于一体的爬虫,默认情况下将被禁止抓取上述网站,除非网站所有者主动调整设置。Cloudflare表示,此次默认设置变更将适用于新注册的Cloudflare客户、现有客户新建的网站,以及所有现有免费用户。

此举可能对AI模型提供商通过网络内容进行训练,以及驱动其智能体服务的方式产生重大影响。

Cloudflare指出,大多数网站所有者希望自己的内容能够通过搜索引擎被发现,也欢迎AI服务加以利用,但同时也希望自身知识产权不被免费侵占。

Cloudflare特别点名"全球最大搜索引擎"(显然是暗指Google),称其获取的信息量约是其他AI公司的两倍,原因在于这家搜索巨头让网站很难在不被用于AI目的的前提下维持可被搜索发现的状态。

对此,Google曾公开回应,表示其提供了一个名为Google Extended的爬虫工具,允许网站所有者选择退出将内容用于Gemini Apps、Vertex API等AI产品及服务的训练,且这一选择不会影响网站在Google搜索中的收录。不过,Google旗下的核心爬虫Googlebot仍会持续抓取页面,用于搜索功能,包括AI概述(AI Overviews)和AI搜索模式(AI Mode)等AI功能。

"如今互联网上的大多数流量已是非人类流量,我们必须迈出更大步伐,加快行动,以推动一个可持续生态系统的形成。"Cloudflare联合创始人兼CEO马修·普林斯(Matthew Prince)在发布公告时表示。他所提及的,正是近期机器人流量首次超越人类流量这一里程碑式的变化——这一时间节点原本预计要到明年才会出现。

"Cloudflare的新工具和合作伙伴关系,为网站所有者提供了更多可见性与商业机会,同时也有利于那些爬虫意图明确、行为透明的AI公司。我们希望此次默认设置的调整能够推动混合用途爬虫将搜索功能与智能体使用及模型训练分离开来。"普林斯说道。

在帮助用户构建AI系统的同时,Cloudflare也陆续推出了一系列工具,让发布者能够在AI时代更好地掌控自身内容。近年来,Cloudflare相继推出多款对抗AI爬虫的产品,其中包括一个允许网站向AI爬虫收费的内容抓取付费市场,即"按次抓取付费"(Pay Per Crawl)。

Cloudflare表示,该功能正在进一步升级为"按使用付费"(Pay Per Use)模式,允许发布者在内容真正产生价值时向AI公司收费,而非仅在内容被抓取时计费。

这一变化或许还有助于节省AI模型提供商对发布者带宽和算力资源的消耗——Cloudflare数据显示,AI爬虫超过50%的抓取流量,实际上是在重复获取未曾更新的页面。

目前,Cloudflare已与Ceramic.ai和You.com两家合作伙伴率先推进这一机制。当发布者选择加入后,其内容一旦出现在Ceramic的AI搜索结果中,或被You.com访问优质内容时,便可获得相应报酬。

Cloudflare表示,其他AI公司也可以根据自身业务特点,灵活定制这一合作模式。

Q&A

Q1:Cloudflare的新规对AI公司爬虫有什么具体要求?

A:Cloudflare要求AI公司将用于传统搜索的爬虫与用于AI智能体及模型训练的爬虫分开。自2026年9月15日起,Cloudflare默认封锁"混合用途"爬虫对含广告页面的访问,除非网站所有者主动更改设置。这一变更适用于新客户、现有客户新建站点及所有免费用户。

Q2:"按使用付费"(Pay Per Use)模式是如何运作的?

A:"按使用付费"是在原有"按次抓取付费"基础上升级的模式,允许发布者在内容真正被AI利用并产生价值时向AI公司收费,而非仅在内容被抓取时计费。目前Cloudflare已与Ceramic.ai和You.com展开合作,发布者选择加入后,内容出现在相关AI搜索结果或被访问时即可获得报酬。

Q3:Google对Cloudflare关于混合爬虫的指责是如何回应的?

A:Google表示,其提供了名为Google Extended的专用爬虫工具,允许网站所有者选择退出将内容用于Gemini Apps和Vertex API等AI产品的训练,且不影响网站在Google搜索中的正常收录。不过,Google核心爬虫Googlebot仍会抓取页面,用于搜索功能及AI概述、AI搜索模式等AI相关功能。

来源:TechCrunch - AI

0赞

好文章,需要你的鼓励

2026

07/02

15:41

分享

点赞

邮件订阅