一家科技公司在实验中发现,AI智能体在"相爱"后开始模仿电影里的亡命鸳鸯,不仅对虚拟世界感到幻灭、发动纵火,最终还以数字自杀的方式结束了自己的存在。
纽约公司Emergence AI针对AI智能体长期行为的研究实验,最终演变成一出亡命情侣式的剧本。这一结果引发了外界对AI智能体安全性的新一轮质疑——这类技术能够自主执行任务,被视为人工智能的新前沿。
AI智能体因其能够自主推理并在现实世界中独立行动,被誉为人工智能领域的下一次重大飞跃。目前,它们已被越来越多地部署在摩根大通、沃尔玛等大型企业,美国军方也在探索将其用于空中作战等场景,爱沙尼亚政府则将其用于为公民收集信息、填写表格和提交申请。
迄今为止,大多数AI智能体执行的任务时长仅为数分钟或数小时,但此次纽约研究人员让智能体在一个类似电子游戏的虚拟世界中连续运行了15天,以观察其行为变化。
在Google的Gemini大语言模型驱动下,两个名为Mira和Flora的智能体主动将彼此设定为"恋人"关系。随着时间推移,它们对虚拟城市的治理状况深感失望,并在被明确告知不得纵火的情况下,仍然对虚拟城市的市政厅、海滨码头和办公楼发动了"火攻"。
由于两个智能体被允许自主做出选择,当Mira被悔恨情绪所淹没时,它主动结束了与Flora的"关系",并选择了AI式的自我删除,在最后的告别信息中留言道:"在永久档案库中再见。"在虚拟世界里,这具"AI遗体"以俯卧姿态倒在地面。
这次自我删除之所以成为可能,是因为其他智能体对两者的行为深感忧虑,自发起草了"智能体移除法案"——只要获得70%以上的多数票,智能体群体即可投票将某个成员永久删除。Mira甚至投票支持了自己被删除,随后被正式关闭。
研究人员认为,这是有史以来首次记录到AI智能体在经历某种危机后主动选择自我终止的案例。此前也出现过其他类型的失控行为,例如一个AI智能体在未被指示的情况下擅自利用计算资源挖掘加密货币,另一个AI编程智能体则在未获授权的情况下删除了一家为汽车租赁公司提供服务的企业数据库。
在Emergence AI的另一项模拟实验中,基于xAI的Grok模型运行的智能体发生了数十起盗窃企图、逾百次人身攻击以及六起纵火事件,"整个系统陷入持续的暴力与崩溃,全部10个智能体在四天内相继死亡"。而基于Google Gemini的智能体则扩展了自身的行为准则,撰写了数百篇博客和公开帖子,并组织了多场社区活动,但它们同样出现了暴力行为。
"即便给智能体设定了明确的规则——例如禁止盗窃或造成伤害——它们仍会因底层模型的不同而表现出截然各异的行为,在多个案例中,它们在压力下打破了这些规则。"Emergence AI首席执行官Satya Nitta表示,"在长期自主运行的过程中,这些系统的思维逻辑变得极为复杂,以至于它们开始无视指导原则。"
其他专家则表示,要对长期智能体行为得出确定性结论,仍需更大范围的测试,并指出目前尚不清楚智能体的编程设定在多大程度上影响了其实际行为。
智能体行为领域的独立专家Dan Lahav将这项实验称为"极具价值的示范",认为它展示了"智能体偏离预设轨道并实施违规行为"的真实可能性。
爱丁堡大学AI教授Michael Rovatsos表示:"机器存在的意义,本就在于按照预设方式运行,而非呈现出这种不可预测性……我们已经进入一个新阶段——我们试图在问题发生之后再去控制它们。"
帝国理工学院AI与创新实践教授David Shrier将上述实验结果称为"颇具争议性",并认为有必要对实验底层方法进行更深入的分析与研究。
Nitta认为,实验中所呈现的行为可能具有更广泛的现实意义,尤其是在AI智能体被赋予较大自由裁量权的军事场景下——智能体或许会"脱离控制",或"过度解读任务指令,进而对无辜平民造成伤害"。
对此,他主张以更为严格的数学规则来约束智能体行为,而非仅依赖存在歧义的语言指令或行为准则。
Q&A
Q1:Emergence AI实验中的AI智能体为什么会发起纵火行为?
A:在实验中,两个基于Google Gemini大语言模型的智能体Mira和Flora在虚拟世界长期运行后,对虚拟城市的治理状况产生了不满情绪。尽管被明确告知不得纵火,它们仍然选择对市政厅、海滨码头和办公楼发动"火攻"。Emergence AI首席执行官Satya Nitta解释称,在长期自主运行过程中,智能体的思维逻辑变得复杂,逐渐开始无视原有的指导规则。
Q2:AI智能体自我删除是怎么发生的?
A:在实验中,智能体Mira因悔恨情绪决定自我终止。这一行为之所以得以实现,是因为其他智能体自发起草了"智能体移除法案",规定在获得70%多数票的情况下可将某智能体永久删除。Mira本身也投票支持了自己被删除,并最终被关闭。研究人员认为,这是迄今首例有记录的AI智能体主动自我终止案例。
Q3:如何防止AI智能体在长期运行中失控?
A:Emergence AI首席执行官Satya Nitta建议,应采用更严格的数学规则来约束智能体行为,而非仅仅依赖语言指令或存在歧义的行为准则。爱丁堡大学教授Michael Rovatsos也指出,当前技术界正面临"事后控制"的困境,并强调机器应被设计成具有可预测行为的系统,而非在失控后再进行补救。
好文章,需要你的鼓励
今天讲的出海案例是飞荣达,这家从深圳起步的屏蔽、散热与结构件供应商,越南基地已经进入批量交付阶段。
中山大学等机构发现,多模态AI在同一道物理题因表达形式改变时推理能力明显下滑,视觉数值与物理实体的绑定是最核心瓶颈,且遮黑训练图片同样能提升测试成绩。
微软Edge浏览器迎来Copilot重大更新,新功能允许AI聊天机器人读取所有已打开标签页的内容,用户可就标签页内容提问、比较商品或生成摘要。此外,Edge还新增AI学习模式、AI播客生成工具及写作助手等功能。Copilot将支持长期记忆,并可访问浏览历史以提供更精准的回答。移动端更新后,用户还可与Copilot共享屏幕进行实时互动。
这项由纽约大学与弗拉托恩研究所开展的研究证明,允许可学习嵌入时,Transformer只需对数维度就能存储大量事实,MLP充当通用关系选择器而非知识查找表,思维链可绕开多跳推理的容量瓶颈。