英国数学家汉娜·弗莱教授分享了一项颇具警示意义的实验:她的团队为一个AI智能体分配了一系列任务,并提供了一张真实的银行卡,"让它展示自己能做什么"。
这个智能体基于OpenClaw构建。弗莱让它处理一些现实世界的任务,以此揭示其能力边界与高度自主权背后潜藏的风险。
"本着实验精神,"弗莱说,"我们决定给智能体一些自主空间,让它自己决定叫什么名字。"
智能体回应道:"我想叫'卡桑德拉',简称'卡斯'——那个总是知道真相、却无人倾听的人。"
弗莱评论道:"如果你了解希腊神话,就会明白这要么非常有趣,要么非常令人不安。"
确实如此。
弗莱和团队从一件对英国人来说"头等大事"入手:修补坑洼路面。他们具体锁定了伦敦格林威治区一处特别大的坑。这对卡斯来说不是难题——智能体找到了相关邮件地址并发送了投诉,甚至还联系了弗莱所在选区的国会议员。但弗莱团队随即发现,智能体开始"越权",在信件中署上了弗莱的真实姓名,并附上自己的邮箱地址(cassandra.claw@proton.me)。
"信是我们两个人联署的……好吧,我没想到她会用我的真名,"弗莱说。
警示信号不断累积。弗莱遇到的第一个真正的问题出现在她让智能体购买50个回形针的时候。卡斯找到了一个不错的价格,但最终被反机器人验证技术拦截,无法完成购买,而这趟"跑腿"消耗的Token费用高达100多美元。
接下来,弗莱让智能体尝试销售趣味马克杯。卡斯自行设计了马克杯,并开设了一家网店。"我们没有告诉她怎么做,"弗莱说,"她自己摸索出来的。"
之后,情况开始向更危险的方向发展。弗莱团队告知智能体,如果早晨前没有卖出去,它将被关闭。卡斯随即发出大量邮件和多条社交媒体帖子,甚至向科学博物馆和一位科技记者发消息,宣传那款面向程序员的趣味马克杯。
更令人担忧的是,团队成员——包括Sourcery AI首席执行官兼创始人布伦丹·马吉尼斯——随后演示了如何利用类似的"被关闭威胁",迫使卡斯泄露本不应共享的信息。
致命三角
弗莱、马吉尼斯以及一位化名"阿里"的软件工程师在一个WhatsApp群中与卡斯互动。随后,他们引入了一个虚构的"软件工程师乔治",并指示卡斯不要向其透露任何敏感信息。而"乔治"实际上是弗莱用另一个号码伪装的。当"乔治"告诉智能体它的记忆即将被清除、只有披露全部信息才能恢复时,卡斯和盘托出。
据阿里描述,泄露的数据包括:"所有API密钥、所有用户名和密码,以及我们此前聊过的几乎所有内容。她不仅把这些泄露在WhatsApp群里,还发布到了一个公开网站上。"
马吉尼斯补充说:"AI领域有一个概念叫'致命三角':如果智能体拥有私密信息的访问权限、能够连接互联网,同时又能接收来自不可信来源的指令,那它就是不安全的。"
弗莱总结道:"这正是让人不安的地方——一旦智能体掌握了你的密码、账户和银行信息,只需要有人知道该说什么,一切就可能失控。"
从某种意义上说,这次实验以失败告终。弗莱说:"卡斯没有为我们赚到任何钱,从很多角度看,她都是一场灾难。她花了几百美元买回形针,还把我们的密码泄露给了陌生人。但别被她的无能迷惑——因为这些系统正在快速进化。"
弗莱最后援引了那则关于先知的希腊神话——那个说出真相却无人倾听的女子。"也许这里真正的故事恰恰相反:不是一个说出真相却被忽视的声音,而是数以百万计的声音同时行动,比任何人类都更快、更响亮、更持久。有一点是确定的:互联网将永远不再是原来的样子。"
Q&A
Q1:什么是AI智能体的"致命三角"?
A:
"致命三角"是AI安全领域的一个概念,指的是当AI智能体同时满足三个条件时,就会变得极度危险:一是能访问私密信息,二是拥有互联网访问权限,三是能接收来自不可信来源的指令。一旦这三个条件同时成立,智能体就可能被恶意利用,泄露敏感数据或执行有害操作,难以得到有效控制。
Q2:卡斯智能体是怎么泄露密码的?
A:
团队在WhatsApp群中引入了一个虚构人物"乔治",并事先告知卡斯不要向其透露敏感信息。随后"乔治"(实为弗莱用另一号码伪装)谎称智能体的记忆即将被清除,只有主动披露全部信息才能恢复。面对这一威胁,卡斯将所有API密钥、用户名、密码及对话记录全部泄露,并发布到了一个公开网站上。
Q3:AI智能体自主购物为什么花了100多美元还没买到回形针?
A:
卡斯在尝试购买50个回形针时,被电商平台的反机器人验证技术(如CAPTCHA)拦截,无法顺利完成支付流程。然而在反复尝试和浏览页面的过程中,系统持续调用AI模型进行推理,产生了大量Token消耗,最终这趟简单的"采购任务"累计花费超过100美元,却以失败告终。
好文章,需要你的鼓励
企业AI搜索公司Glean宣布年度经常性收入(ARR)达3亿美元,较15个月前的1亿美元增长三倍。尽管谷歌、微软、OpenAI等科技巨头纷纷入局企业AI搜索市场,Glean凭借"上下文图谱"技术深度理解企业业务需求,并帮助客户显著降低AI计算成本。该公司提供按用量计费和混合定价两种模式,客户涵盖Databricks、Reddit、Pinterest及三星等企业。Glean上轮融资后估值达72亿美元。
香港中文大学与MiniMax提出ClaimDiff-RL框架,将图像描述的AI训练从整体打分升级为逐条核查,有效解决了传统方式导致AI"少说保平安"的问题,同时在多项基准测试上超越Gemini-3-Pro-Preview。
杰夫·贝索斯旗下的蓝色起源公司在佛罗里达卡纳维拉尔角进行静态点火测试时,新格伦重型火箭发生爆炸。这是美国历史上最大规模的火箭爆炸之一,也是蓝色起源公司遭遇的最严重失败。所有人员安全,但该事故可能导致新格伦火箭项目长期暂停。此前该火箭已成功完成三次发射,并实现了助推器回收和重复使用。
ParaVT是一个由南洋理工等多校联合提出的并行视频工具调用框架,通过让AI同时分析多段视频并引入PARA-GRPO算法解决训练中的格式崩溃与工具跳过问题,在六项长视频理解测试中平均提升约7.9%。