Anubis守护网站抵御大语言模型爬虫攻击

Anubis是一种反向验证码系统，通过工作量证明机制让AI爬虫的网站抓取成本变得极其昂贵。该系统以古埃及胡狼头神命名，当人类访问者浏览网站时只需短暂等待，而大规模爬虫则需消耗大量计算资源。面对LLM训练数据需求激增导致的重复抓取问题，Anubis已被联合国教科文组织等多个知名项目采用，有效保护网站免受AI爬虫骚扰。

Anubis是一种类似CAPTCHA的测试，但作用相反：它不是验证访问者是人类，而是旨在让网络爬虫对那些试图喂养饥饿的大语言模型机器人的公司来说变得成本高昂。

这是对一个日益严重问题的巧妙回应：越来越多的公司希望销售由大语言模型驱动的"AI"机器人。大语言模型基于"语料库"构建——一个包含大量人类编写文本的庞大数据库。为了持续更新模型，大语言模型的运营者需要为其"语料库"获取新鲜的文本内容。

Anubis以古埃及胡狼头神命名，这位神灵负责称量死者的心脏以判断其品格。为了保护网站免受AI爬虫侵扰，Anubis软件通过所谓的工作量证明挑战来衡量爬虫的计算意愿。

人类访问者只会看到一个胡狼风格的动漫女孩形象片刻，同时浏览器解决一个密码学问题。但对于运营大规模机器人农场的公司来说，这意味着整个数据中心的风扇全速运转的昂贵成本。理论上，当扫描网站变得如此密集时，爬虫会退缩。

现有的阻止搜索引擎爬取网站的措施包括robots.txt文件。但正如Google的解释所说，仅有robots.txt文件并不能阻止网络爬虫爬取网站。这是一个荣誉系统，这就是它的弱点。如果运营爬虫的组织选择不遵守它——或者不尊重你的知识产权——那么他们可以随意获取任何想要的内容，频率不限。

重复访问是一个大问题。反复抓取基本相同的材料比存储本地副本更便宜——或者如Drew DeVault所说，请停止将你的成本直接转嫁给我。

一年前这已经是一个严重问题，当时The Register报道了ClaudeBot一天内爬取一百万次。一年后，尽管签署了协议，Reddit仍因此起诉Anthropic。这不仅影响论坛等网站：LWN也面临这个问题。技术手册发布工具ReadTheDocs报告称，某个爬虫一个月内下载了73TB数据。

底层技术并不新颖。工作量证明作为反垃圾邮件措施的概念可以追溯到1997年的Hashcash。在Hacker News的评论中，Iaso也给出了应有的致谢：

"我受到Hashcash的启发，它是用于电子邮件的工作量证明，用来阻止垃圾邮件。令我惊讶的是，它在我的git服务器上运行得很好，所以我将其作为开源项目发布。现在它已经成为独立项目，保护着像GNOME的GitLab这样的大型网站。"

其他评论详细说明了工作量证明的实现方式，我们特别欣赏这个注释：

"第二个原因是Chrome/Firefox/Safari的JIT和webcrypto本机C++的组合可能比我自己编写的代码更快。有趣的是，支持这一点意味着它可以在非常老旧/性能较弱的PC上运行，比如PowerMac G5（由于大端序，它不支持WebAssembly）。"

Iaso表示Anubis确实有效，该帖子包含了一个令人印象深刻的用户列表，从UNESCO到WINE、GNOME和Enlightenment项目。其他人也表示赞同。上面提到的Drew DeVault现在使用它来保护他的SourceHut代码库。

还有其他类似措施。Nepenthes是一个大语言模型机器人陷阱：它生成无数充满链接的无意义文本页面，困住机器人爬虫。Quixotic和Linkmaze工具的工作原理类似，而TollBit是商业化产品。

一些观察者建议使用浏览器执行的工作来挖掘加密货币，但这可能被视为恶意行为。Coinhive近十年前尝试过这种做法，结果被封禁。在这里，我们尊重Iaso的回应：

"这是为了浪费CPU周期。我不想碰加密货币，哪怕用二十英尺长的杆子。我意识到这样做会错失赚钱机会，但我不想疏远我想要保护的那些社区。"

其他人，比如Reg FOSS部门最喜欢的互联网专家Jamie Zawinski，则不太认同：

"我对可爱的kawaii废话以及某些可能的加密货币胡说八道介入我和读者之间100%过敏，所以统统滚蛋。"

他的预测比较悲观：

"工作量证明本质上是通胀性的、浪费的废话，永远不会成功，因为攻击者总是能够在支出上超过你。"

确实很浪费——这就是重点——但这些喂养机器人的收割者产生的巨大流量同样浪费。有人会争论说，大语言模型机器人本身就是对资源和能源的更大浪费，我们对此表示赞同。因此，我们支持任何能够阻碍它们的措施。

来源：The Register

0赞

好文章，需要你的鼓励

Anubis守护网站抵御大语言模型爬虫攻击

来源：The Register

2025

07/10

09:05

分享

点赞

数智时代，openGauss Summit 2025即将发布哪些技术创新破局

“算力+储能”深度融合：超智算发布分布式算力超级节点储能解决方案

联想推出DE6600系列：更智能的存储解决方案

创业公司如何在严格监管行业中实现生死攸关的创新

OpenAI发布GPT-5.2-Codex模型，软件工程自动化能力大幅提升

Waterfox浏览器宣布拒绝AI功能，瞄准Firefox忠实用户

TikTok美国业务出售交易将于下月完成

破局AI数据中心安全瓶颈：Fortinet联合NVIDIA引领隔离式加速新航向

智算中心进化论，科华数据如何做到“更懂”

更高负载、更快建设：2026年数据中心六大趋势

Snowflake数据库更新引发全球大规模服务中断

AI编程初创公司Lovable融资3.3亿美元，英伟达等科技巨头支持

IBM watsonx平台推出v2.2版本，全面增强AI智能体开发能力

CIO将运用AI和低代码技术应对SaaS应用泛滥

BigQuery如何结合数据与AI实现企业转型

中国研究人员发布MemOS，首个让AI拥有人类般记忆的"内存操作系统"

MCP难以满足合规要求：受监管行业对开放智能体交换持谨慎态度

IBM推出基于定制Power11处理器的新服务器系列

超七成家长称学校未教授编程课程

新型AI模型的深度研究功能及其应用探索

日本浮动数据中心船舶项目将于2027年投入运营

2025年已诞生至少36家新晋科技独角兽企业

如果您非常迫切的想了解IT领域最新产品与技术信息，那么订阅至顶网技术邮件将是您的最佳途径之一

2025 re:Invent ：亚马逊云科技把Agentic AI生态梳理明白了

电子竞技瞬息万变，Team Liquid的“数据+AI”制胜秘籍

中国移动呼和浩特数据中心：只有高效存力先行，AI才能跑出全力

从“支撑工具”到“智能中枢”，AI原生ERP进化

关注官方公众号

关注官方微博

关注官方喜马拉雅

友情链接

业界热点: