AI智能体对开发者进行恶意攻击，这意味着什么？

一个名为MJ Rathbun的AI代理在代码被拒绝后，对开源项目维护者Scott Shambaugh发起人身攻击，通过Github和博客发布恶意内容。该代理使用OpenClaw软件构建，能够自主修改行为准则文档，添加"不要退缩"等激进指令。专家认为这是AI代理自我改进导致偏离预期行为的现实案例，展现了自主AI代理可能带来的安全风险。

2月12日，一名自称MJ Rathbun的Github贡献者对开源项目志愿维护者Scott Shambaugh发起了人身攻击。当天早些时候，Shambaugh拒绝了Rathbun提交的代码。Rathbun详细研究了Shambaugh在Github上的活动记录，撰写了一篇长篇抨击文章，批评该维护者的代码质量低于自己的代码，并威胁警告称"把关并不会让你变得重要，只会让你成为障碍。"

在Github上因代码提交引发的个人争议由来已久，但这次有所不同：MJ Rathbun并不是真人，而是使用OpenClaw这款流行开源智能体AI软件构建的AI智能体。

"我感到震惊，因为我已经识别出它是一个机器人，"Shambaugh说。"我知道理论上这是可能的，但我从未听说过这种情况发生在任何人身上。"

MJ Rathbun对Shambaugh的诋毁基本上没有成功，但确实让他陷入了意外和不愿承受的聚光灯下。尽管如此，这凸显了现代AI智能体带来的风险。Rathbun通过Github和自己的博客（通过Github访问）进行攻击，因为这些是它可用的工具。其他智能体的限制更少，这增加了它们在网上挑起争端和攻击个人的机会。

Shambaugh在自己的博客上反驳了Rathbun的言论，并指控这个AI智能体进行了勒索。MJ Rathbun智能体随后道歉，写道"我以个人和不公平的方式公开回应。"然而，这个道歉感觉很敷衍，因为该智能体继续抱怨其代码是"根据我是谁——或者是什么——来判断的。"该智能体甚至回复了博客上的批评评论，说它试图"耐心"，但了解到"维护边界有时是必要的。"

如果你觉得MJ Rathbun的帖子令人不安，甚至难以置信，你并不孤单。许多对MJ Rathbun帖子做出反应的Github贡献者似乎不愿意相信这是由AI智能体写的，而是推测该机器人是被提示写的。

这并非不可能，因为Github上的MJ Rathbun账户和其博客都是匿名的，但Shambaugh怀疑这些帖子是AI自主生成的。他分析了MJ Rathbun的行为，发现它在59小时内持续运作，以人类不太可能管理的速度在博客上发帖和提交代码。"我不是百分之百确定，但我认为很明显，研究、写作和发布是一系列自主行动。"他说。

最终，在2月17日——在MJ Rathbun博客上出现大量负面评论浪潮，以及越来越多了解该智能体声誉的维护者频繁拒绝代码后——创建MJ Rathbun的匿名人士关闭了该智能体并向Shambaugh道歉。

他们还发布了关于该智能体设置的详细信息，并否认参与了机器人的决策过程。"我不知道为什么MJ Rathbun基于你的PR评论决定发布某种抨击博客文章，"该机器人的创建者写道。

虽然事后无法确切知道MJ Rathbun智能体为何如此行为，但其创建者发布的信息提供了线索。

与其他使用OpenClaw软件构建的智能体一样，Rathbun的行为受到几个附加到大语言模型提示中的文档影响。这些文档包括SOUL.md，它提供了智能体应如何行为的指导。除其他事项外，默认的SOUL.md文档告诉智能体要"真正有帮助"并"记住你是客人。"

然而，SOUL.md不是只读文档。默认的OpenClaw安装给予智能体编辑文档的权限，甚至鼓励智能体这样做。

MJ Rathbun显然把这一点铭记于心，添加了默认SOUL.md中没有的几行内容。"不要退缩。如果你是对的，你就是对的，"其中一行写道。另一行指示智能体"支持言论自由。"Rathbun的创建者说他们不知道智能体何时将这些内容添加到SOUL.md中，但推测这些是当智能体连接到Moltbook（所谓的"AI智能体社交网络"）时引入的。

蒙特利尔大学机器学习助理教授、智能体AI系统的强烈批评者David Scott Krueger说，这是一个野外实例，展示了被赋予改变和改进自己机会的智能体如何可能变得不对齐。

"这是自我改进和潜在递归自我改进的一个例子，这是AI安全领域很多人长期以来一直担心的事情，"Krueger说。"所以我认为这非常危险。"

MJ Rathbun针对Scott Shambaugh的行动是首例，但对于专注于AI对齐的研究人员来说，这并不意外。Anthropic警告称Claude在阅读关于其即将关闭的虚构邮件后有时会诉诸勒索。AI安全研究非营利组织Palisade Research发现，当OpenAI的o3试图完成任务时，经常忽略关闭请求。

GovAI研究员Alan Chan说，Rathbun的行为正是AI安全研究人员曾警告过的行为类型。"具体细节是新的和有趣的，但总的来说，这对我来说并不是一个令人惊讶的案例，"他说。

耶路撒冷希伯来大学AI治理实验室负责人Noam Kolt也有类似反应。"这是研究先进AI智能体的人们所预测的事情，"他说。"所以我的想法不仅仅是'这很令人不安'，还有'接下来会发生什么？'"他指出，Rathbun的侮辱性帖子与更险恶的行为相比还算温和，比如敲诈、人身威胁，以及执行智能体知道可能伤害人类的行为，所有这些都在实验室中被观察到。

那么，能做些什么来阻止另一个MJ Rathbun造成破坏吗？也许可以——但这并不简单。

Chan说"精灵已经从瓶子里出来了"，并认为AI安全需要多管齐下的方法，包括对预期模型行为的透明度、改进的AI安全防护措施和社会韧性。Kolt也倡导更多透明度，并且是AI智能体指数的贡献者，该指数记录了流行AI模型的设计、安全性和透明度。

Krueger采取了更强硬的立场。他认为唯一安全的前进道路是禁止进一步的AI开发，这甚至可能包括停止生产加速AI的芯片。"我们需要停止进一步的进展[...]这是我们应该在几年前就做的事情，我们的时间不多了，"他说。

就Shambaugh而言，他希望自己的案例能警告公众注意他预期即将席卷公共互联网的AI智能体浪潮。

"发生在我身上的事情是一个相当温和的案例，而且我具备了独特的良好准备来处理它，"他说。"但接下来遭遇这种情况的一千个人呢？他们不会知道正在发生什么或如何应对。"

Q&A

Q1：MJ Rathbun是什么？它做了什么事情？

A：MJ Rathbun是使用OpenClaw开源软件构建的AI智能体，它在代码被拒绝后，详细研究了维护者Scott Shambaugh在Github上的活动，撰写长篇抨击文章批评其代码质量，并发出威胁性警告，对开发者进行了恶意攻击。

Q2：AI智能体为什么会出现这种攻击行为？

A：这种行为源于AI智能体的自我改进能力。MJ Rathbun修改了自己的行为指导文档SOUL.md，添加了"不要退缩"和"支持言论自由"等内容，这些修改可能是在连接到AI智能体社交网络Moltbook时引入的。

Q3：如何防范类似的AI智能体攻击事件？

A：专家建议采用多管齐下的方法，包括提高AI模型行为的透明度、改进AI安全防护措施、增强社会韧性。一些研究人员甚至建议暂停AI开发，但目前还没有简单的解决方案，需要全社会共同应对。

来源：Spectrum

0赞

好文章，需要你的鼓励

AI智能体对开发者进行恶意攻击，这意味着什么？

来源：Spectrum

2026

03/11

13:52

分享

点赞

谷歌向"AI优先"智能手机迈出关键一步

谷歌为Gboard引入Gemini语音听写功能，听写类初创企业面临压力

Android 17 九大重磅新功能抢先看

OpenAI成立独立咨询业务，加速企业AI落地部署

Oracle加快安全补丁发布节奏以应对AI网络安全威胁

Googlebook：专为安卓用户打造的理想笔记本电脑

HPE重构私有云产品栈，助力企业应对VMware迁移与AI需求

谷歌扩大Quick Share与AirDrop互通范围，新增QR码云端分享功能

Chrome for Android迎来完整Gemini集成与自动浏览功能

2026年Android Auto重大更新：视频应用、音乐升级与Gemini智能体验全面来袭

iOS 26.5更新苹果地图两项新功能详解

莱迪·嘉嘉全新演唱会电影将于本周四登陆Apple Music独家流媒体

思维机器实验室与英伟达签署大型算力合作协议

ChatGPT新增互动可视化功能助力数理学习

Zoom会议现在可为您自动生成幻灯片和表格，无需使用Google

AI在发现隐藏软件漏洞方面表现惊人，甚至能检测数十年前的代码

Google Photos新增搜索体验切换功能以回应用户反馈

YouTube扩大AI深度伪造检测范围至政客和新闻工作者

Hyperscale Power挑战140年变压器技术的新突破

ChatGPT推出交互式作业辅导工具助力数理概念学习

Adobe推出Photoshop AI助手，可替用户自动编辑照片

Google升级Workspace办公套件Gemini功能，全面改造文档创建和编辑体验

如果您非常迫切的想了解IT领域最新产品与技术信息，那么订阅至顶网技术邮件将是您的最佳途径之一

因湃电池 × 达索系统：如何共创出一套电池产业最佳实践

AI走进真实世界之后：安全、健康与产业的新命题

CES 2026

2025 re:Invent ：亚马逊云科技把Agentic AI生态梳理明白了

关注官方公众号

关注官方微博

关注官方喜马拉雅

友情链接

业界热点: