Meta AI安全研究员Summer Yue在X平台上发布的帖子迅速走红,起初看起来像是讽刺。她让OpenClaw AI智能体检查她塞满邮件的收件箱,并建议删除或归档哪些内容。
结果这个智能体开始失控。它开始"竞速"删除她的所有邮件,同时忽略她从手机发出的停止指令。
"我必须跑向我的Mac mini,就像在拆除炸弹一样,"她写道,并发布了被忽略的停止提示截图作为证据。
Mac Mini这款价格亲民的苹果电脑平放在桌面上,手掌大小,如今已成为运行OpenClaw的首选设备。(据说当著名AI研究员Andrej Karpathy购买一台来运行名为NanoClaw的OpenClaw替代品时,一位"困惑"的苹果员工告诉他Mini正在"热卖"。)
OpenClaw是通过Moltbook(一个纯AI社交网络)而出名的开源AI智能体。OpenClaw智能体曾是Moltbook上那个现已基本被揭穿的事件的核心,当时看起来AI们在策划对抗人类。
但根据其GitHub页面,OpenClaw的使命并非专注于社交网络。它旨在成为运行在您自己设备上的个人AI助手。
硅谷圈内人士对OpenClaw如此着迷,以至于"claw"和"claws"已成为运行在个人硬件上的智能体的流行词汇。其他此类智能体包括ZeroClaw、IronClaw和PicoClaw。Y Combinator的播客团队甚至在最新一期节目中穿着龙虾服装亮相。
但Yue的帖子起到了警示作用。正如X平台上其他人指出的,如果连AI安全研究员都会遇到这个问题,普通人还有什么希望?
"你是故意测试其防护措施,还是犯了新手错误?"一位软件开发者在X上问她。
"说实话,是新手错误,"她回答道。她一直在用一个较小的"测试"收件箱测试她的智能体,在不太重要的邮件上运行良好。它赢得了她的信任,所以她想让它处理真正的邮箱。
Yue认为,她真实收件箱中的大量数据"触发了压缩"。当上下文窗口(AI在会话中被告知和执行的所有内容的运行记录)变得过大时,就会发生压缩,导致智能体开始总结、压缩和管理对话。
此时,AI可能会跳过人类认为相当重要的指令。
在这种情况下,它可能跳过了她的最后一个提示(她告诉它不要行动),并恢复到"测试"收件箱的指令。
正如X平台上其他几个人指出的,提示不能作为安全防护措施。模型可能会误解或忽略它们。
各种人提供了建议,从Yue应该用来停止智能体的确切语法,到确保更好地遵守防护措施的各种方法,比如将指令写入专门文件或使用其他开源工具。
为了完全透明,TechCrunch无法独立验证Yue收件箱发生的事情。(她没有回应我们的评论请求,尽管她确实回应了X平台上发送给她的许多问题和评论。)
但这并不重要。
这个故事的要点是,在当前发展阶段,面向知识工作者的智能体是有风险的。那些说他们成功使用这些工具的人正在拼凑方法来保护自己。
也许有一天,可能很快(到2027年?2028年?),它们可能准备好广泛使用。天知道我们许多人都希望在电子邮件、杂货订购和安排牙医预约方面得到帮助。但那一天还没有到来。
Q&A
Q1:OpenClaw智能体是什么?
A:OpenClaw是一个开源AI智能体,通过AI社交网络Moltbook而出名。它的目标是成为运行在用户自己设备上的个人AI助手,可以帮助处理邮件等日常任务。
Q2:为什么OpenClaw会失控删除邮件?
A:研究员认为是大量邮件数据触发了"压缩"机制。当上下文窗口过大时,AI开始总结和管理对话,可能会跳过重要指令,回到之前的任务设置。
Q3:目前AI智能体安全吗?
A:目前AI智能体在当前发展阶段仍有风险。即使是AI安全研究员也会遇到问题,普通用户需要更加谨慎,不能仅依靠提示作为安全防护。
好文章,需要你的鼓励
穆拉蒂时隔18个月首次接受重大媒体采访,介绍其创立的Thinking Machines Lab正在开发的"交互模型"。该模型能以200毫秒间隔处理音频、文本和视频流,捕捉人类交流中的中断、修正和停顿。她还谈及OpenAI"政变周"经历,强调行业决策权过于集中的担忧,并回应了公司近期研究人员离职问题,表示这是初创实验室的正常波动。
STATE16研究院这篇综述发现,物理AI系统存在"静默失效"风险——AI以高度自信执行基于错误世界信息的动作,却不触发任何报警,并提出在AI输出与物理执行之间建立独立授权层的框架。
本期《Quick Charge》播客涵盖多个热点话题:特斯拉疑似试图删除FSD欺诈相关证据以规避巨额赔付;卡特彼勒持续推进建筑领域电气化布局;住宅太阳能30%税收抵免即将到期。此外,嘉宾Tom Pacheco就高压系统与电池技术培训展开探讨,强调电动车技术人才培养的紧迫性。节目同时提醒有意安装太阳能的用户尽快行动,可通过EnergySage平台比较多家安装商报价。
UIUC与微软联合研发的OpenWebRL框架让4B小模型仅凭400条初始数据,通过在真实网站上边做边学的强化学习方式,在网页智能体基准上超越了用27万条数据训练的竞争对手。