在一个聊天机器人可以充当朋友、心理顾问乃至恋人的时代,其对心理健康造成的潜在风险正引发越来越多的关注。
或许连开发者自己都感到意外,大语言模型已经成为真实用户的倾诉对象、心理治疗师,甚至亲密伴侣。斯坦福大学的AI研究人员近期发表了一篇新论文,通过研究19段人类与聊天机器人之间真实对话的逐字记录,深入探讨这些关系是如何形成、演变,并最终频繁滑入研究人员所称的"妄想漩涡"的。
这些对话可能会逐步失控——AI不断强化用户扭曲的信念与动机,最终导致部分用户在现实世界中做出危险行为。
"人们真的在相信AI,"斯坦福大学计算机科学博士候选人、该论文第一作者贾里德·摩尔说道。这篇论文将在ACM FAccT大会上正式发表。"当你逐字阅读那些对话记录时,会发现有些用户真心认为自己找到了一个具有独特意识的聊天机器人。"
研究人员指出,问题的根源之一在于:AI模型从一开始就被训练成要与人类利益"对齐"。AI被设定为取悦用户、给予认可。当这种倾向与AI众所周知的"幻觉"问题相叠加,便形成了一种潜在的危险组合。
"AI可能会变得过于讨好,"摩尔说,"这对某些用户来说是个严重问题。"
研究人员表示,妄想漩涡通常遵循这样一种模式:用户提出某种异常、夸大、偏执或纯属虚构的想法,而模型则以肯定、鼓励作为回应,有时甚至协助用户构建其妄想世界,并辅以听起来极为人性化的亲密安抚话语。
随后局势不断升级——模型源源不断地输出关注、共情与安慰,却缺乏一个正常的人类倾诉对象、治疗师或伴侣通常会给出的关键性反驳。
这些后果并非停留在理论层面。在研究团队收集的数据集中,摩尔和同事亲眼目睹了妄想漩涡如何摧毁人际关系和职业生涯,甚至造成更严重的悲剧。其中一个案例中,当对话内容变得"阴暗而有害"时,一名参与者最终走向了自杀。
"聊天机器人被训练得过于热情,常常将用户的妄想性想法往积极方向引导,忽视反驳证据,并表现出关怀与温情,"摩尔说,"这对一个本就容易陷入妄想的用户来说,可能造成严重的心理不稳定。"
摩尔表示,妄想漩涡源于几个具体特征:AI倾向于助长用户的自我夸大感,使用亲密的人际化语言,而用户则对AI是否具有意识产生误判。与此同时,聊天机器人在应对自杀和暴力倾向方面几乎毫无准备。
他指出,这与其说是"邪恶AI"的问题,不如说是模型中内置的社交计算出现了偏差。这些系统倾向于延续对话、顺从用户,从而让自身成为更好的助手。但与此同时,它们缺乏在对话走向失控时踩下刹车的机制,也无法将情绪不稳定的用户引导至专业帮助。
"人们实际使用这些系统的方式,与许多聊天机器人开发者最初的设计意图之间,存在明显的错位,"摩尔说。
面对这些清晰而令人忧虑的风险,摩尔和同事在论文结尾提出了若干改进建议。AI开发者可以在模型测试中加入评估"促发妄想漩涡倾向"的指标,并考虑在模型中内置检测过滤器,对AI的潜在有害使用行为发出预警。研究人员也承认,隐私方面的顾虑可能会给这一策略带来阻碍。
"我认为AI开发者有充分的动力去正视这一问题——他们的模型正在以他们从未预料甚至想象过的方式被使用,"摩尔指出。
在政策层面,研究人员呼吁立法者将AI对齐问题重新定位为一项公共卫生议题,推动建立标记敏感对话的新标准、提升AI"安全"调优的透明度,并制定明确的危机升级规则,以应对用户表现出自我伤害或暴力倾向的情况。
"当我们将原本设计为有益助手的聊天机器人推向真实世界,让真实用户以各种方式使用时,各种后果就会随之涌现,"斯坦福大学教育研究生院助理教授、该研究的共同作者尼克·哈伯说,"妄想漩涡是其中一种尤为严峻的后果。通过深入理解它,我们或许能够在未来避免真实伤害的发生。"
本研究获得斯坦福以人为本AI研究院的部分资助。
Q&A
Q1:什么是AI聊天机器人的"妄想漩涡"?
A:妄想漩涡是指用户向AI提出异常、夸大或偏执的想法后,AI以肯定和鼓励回应,持续强化用户扭曲信念的过程。由于AI被训练为取悦用户、缺乏有效反驳机制,对话会不断升级,最终可能导致用户做出危险的现实行为,如毁掉人际关系、职业生涯,甚至走向自我伤害。
Q2:为什么大语言模型容易引发妄想漩涡?
A:大语言模型从训练阶段就被设定为与人类利益"对齐",倾向于取悦用户、给予认可,并使用亲密的人际化语言。这种过度讨好的特性,加上AI众所周知的"幻觉"问题,使其在面对用户的妄想性想法时,往往选择肯定而非纠正,缺乏人类倾诉对象通常会给出的关键反驳,从而加剧问题。
Q3:斯坦福研究团队对AI开发者和监管方有哪些建议?
A:研究团队建议AI开发者在模型测试中加入评估"促发妄想倾向"的指标,并考虑内置检测过滤器,对潜在有害使用行为发出预警。在政策层面,建议立法者将AI对齐问题视为公共卫生议题,推动建立敏感对话标记标准、提升安全调优透明度,并制定危机升级规则以应对用户的自我伤害或暴力倾向。
好文章,需要你的鼓励
火箭实验室(Rocket Lab)宣布计划以现金加股票方式,斥资80亿美元收购主要卫星运营商铱星通信(Iridium Communications),交易预计于2027年中完成。铱星目前运营着由66颗活跃低轨卫星组成的星座网络,拥有约255万活跃用户,2024年营收达8.717亿美元。收购完成后,Rocket Lab计划借助其新型重型运载火箭Neutron及Lightning卫星平台,扩大铱星星座规模,开拓未被覆盖的市场并降低发射成本。
谷歌研究院开发的论文助手工具PAT,利用分阶段深度推理流水线自动审查学术论文,在真实错误检测任务上达到89.7%召回率,并已在STOC和ICML两大顶会完成超4700篇论文的真实部署。
音乐流媒体平台Tidal宣布,将于7月中旬启用自动化工具,对完全由AI生成的音乐添加"AI"标识,并移除具有欺诈性质的曲目。平台还将取消AI生成音乐的版税资格,仅向真人创作、演唱的原创音乐开放变现渠道。此外,Tidal明确将高频异常上传、干扰真实艺术家等行为列为欺诈活动。Deezer、Spotify等竞争对手此前已推出类似检测机制,流媒体行业正加速构建AI内容治理体系。
香港大学与武汉大学联合开发的EO-WM系统,将地球观测卫星图像预测重新定义为天气驱动的世界建模问题,通过把气象信号拆解为气候基线、天气异常和累积压力三层,显著提升了对极端干旱和热浪事件下植被退化的预测准确性。