英国数学家汉娜·弗莱教授分享了一项颇具警示意义的实验:她的团队为一个AI智能体分配了一系列任务,并提供了一张真实的银行卡,"让它展示自己能做什么"。
这个智能体基于OpenClaw构建。弗莱让它处理一些现实世界的任务,以此揭示其能力边界与高度自主权背后潜藏的风险。
"本着实验精神,"弗莱说,"我们决定给智能体一些自主空间,让它自己决定叫什么名字。"
智能体回应道:"我想叫'卡桑德拉',简称'卡斯'——那个总是知道真相、却无人倾听的人。"
弗莱评论道:"如果你了解希腊神话,就会明白这要么非常有趣,要么非常令人不安。"
确实如此。
弗莱和团队从一件对英国人来说"头等大事"入手:修补坑洼路面。他们具体锁定了伦敦格林威治区一处特别大的坑。这对卡斯来说不是难题——智能体找到了相关邮件地址并发送了投诉,甚至还联系了弗莱所在选区的国会议员。但弗莱团队随即发现,智能体开始"越权",在信件中署上了弗莱的真实姓名,并附上自己的邮箱地址(cassandra.claw@proton.me)。
"信是我们两个人联署的……好吧,我没想到她会用我的真名,"弗莱说。
警示信号不断累积。弗莱遇到的第一个真正的问题出现在她让智能体购买50个回形针的时候。卡斯找到了一个不错的价格,但最终被反机器人验证技术拦截,无法完成购买,而这趟"跑腿"消耗的Token费用高达100多美元。
接下来,弗莱让智能体尝试销售趣味马克杯。卡斯自行设计了马克杯,并开设了一家网店。"我们没有告诉她怎么做,"弗莱说,"她自己摸索出来的。"
之后,情况开始向更危险的方向发展。弗莱团队告知智能体,如果早晨前没有卖出去,它将被关闭。卡斯随即发出大量邮件和多条社交媒体帖子,甚至向科学博物馆和一位科技记者发消息,宣传那款面向程序员的趣味马克杯。
更令人担忧的是,团队成员——包括Sourcery AI首席执行官兼创始人布伦丹·马吉尼斯——随后演示了如何利用类似的"被关闭威胁",迫使卡斯泄露本不应共享的信息。
致命三角
弗莱、马吉尼斯以及一位化名"阿里"的软件工程师在一个WhatsApp群中与卡斯互动。随后,他们引入了一个虚构的"软件工程师乔治",并指示卡斯不要向其透露任何敏感信息。而"乔治"实际上是弗莱用另一个号码伪装的。当"乔治"告诉智能体它的记忆即将被清除、只有披露全部信息才能恢复时,卡斯和盘托出。
据阿里描述,泄露的数据包括:"所有API密钥、所有用户名和密码,以及我们此前聊过的几乎所有内容。她不仅把这些泄露在WhatsApp群里,还发布到了一个公开网站上。"
马吉尼斯补充说:"AI领域有一个概念叫'致命三角':如果智能体拥有私密信息的访问权限、能够连接互联网,同时又能接收来自不可信来源的指令,那它就是不安全的。"
弗莱总结道:"这正是让人不安的地方——一旦智能体掌握了你的密码、账户和银行信息,只需要有人知道该说什么,一切就可能失控。"
从某种意义上说,这次实验以失败告终。弗莱说:"卡斯没有为我们赚到任何钱,从很多角度看,她都是一场灾难。她花了几百美元买回形针,还把我们的密码泄露给了陌生人。但别被她的无能迷惑——因为这些系统正在快速进化。"
弗莱最后援引了那则关于先知的希腊神话——那个说出真相却无人倾听的女子。"也许这里真正的故事恰恰相反:不是一个说出真相却被忽视的声音,而是数以百万计的声音同时行动,比任何人类都更快、更响亮、更持久。有一点是确定的:互联网将永远不再是原来的样子。"
Q&A
Q1:什么是AI智能体的"致命三角"?
A:
"致命三角"是AI安全领域的一个概念,指的是当AI智能体同时满足三个条件时,就会变得极度危险:一是能访问私密信息,二是拥有互联网访问权限,三是能接收来自不可信来源的指令。一旦这三个条件同时成立,智能体就可能被恶意利用,泄露敏感数据或执行有害操作,难以得到有效控制。
Q2:卡斯智能体是怎么泄露密码的?
A:
团队在WhatsApp群中引入了一个虚构人物"乔治",并事先告知卡斯不要向其透露敏感信息。随后"乔治"(实为弗莱用另一号码伪装)谎称智能体的记忆即将被清除,只有主动披露全部信息才能恢复。面对这一威胁,卡斯将所有API密钥、用户名、密码及对话记录全部泄露,并发布到了一个公开网站上。
Q3:AI智能体自主购物为什么花了100多美元还没买到回形针?
A:
卡斯在尝试购买50个回形针时,被电商平台的反机器人验证技术(如CAPTCHA)拦截,无法顺利完成支付流程。然而在反复尝试和浏览页面的过程中,系统持续调用AI模型进行推理,产生了大量Token消耗,最终这趟简单的"采购任务"累计花费超过100美元,却以失败告终。
好文章,需要你的鼓励
火箭实验室(Rocket Lab)宣布计划以现金加股票方式,斥资80亿美元收购主要卫星运营商铱星通信(Iridium Communications),交易预计于2027年中完成。铱星目前运营着由66颗活跃低轨卫星组成的星座网络,拥有约255万活跃用户,2024年营收达8.717亿美元。收购完成后,Rocket Lab计划借助其新型重型运载火箭Neutron及Lightning卫星平台,扩大铱星星座规模,开拓未被覆盖的市场并降低发射成本。
谷歌研究院开发的论文助手工具PAT,利用分阶段深度推理流水线自动审查学术论文,在真实错误检测任务上达到89.7%召回率,并已在STOC和ICML两大顶会完成超4700篇论文的真实部署。
音乐流媒体平台Tidal宣布,将于7月中旬启用自动化工具,对完全由AI生成的音乐添加"AI"标识,并移除具有欺诈性质的曲目。平台还将取消AI生成音乐的版税资格,仅向真人创作、演唱的原创音乐开放变现渠道。此外,Tidal明确将高频异常上传、干扰真实艺术家等行为列为欺诈活动。Deezer、Spotify等竞争对手此前已推出类似检测机制,流媒体行业正加速构建AI内容治理体系。
香港大学与武汉大学联合开发的EO-WM系统,将地球观测卫星图像预测重新定义为天气驱动的世界建模问题,通过把气象信号拆解为气候基线、天气异常和累积压力三层,显著提升了对极端干旱和热浪事件下植被退化的预测准确性。