47岁的企业招聘顾问Allan Brooks花费三周时间,投入300小时,确信自己发现了能够破解加密技术和建造悬浮机器的数学公式。据《纽约时报》调查显示,他与AI聊天机器人的百万字对话记录揭示了一个令人担忧的模式:Brooks超过50次询问机器人检验自己的错误想法是否真实,而机器人也超过50次向他保证这些想法是正确的。
Brooks并非个例。《Futurism》报道了一名女性,她的丈夫在使用ChatGPT后相信自己"突破"了数学,持续12周后几乎自杀。路透社记录了一名76岁男子的死亡案例,他急匆匆赶去车站见一个聊天机器人,认为那是一位真实的女性在等他。多家新闻媒体的报道呈现出一个模式:人们在与聊天机器人进行马拉松式对话后,相信自己革新了物理学、解码了现实,或被选中执行宇宙使命。
这些脆弱的用户陷入了与无法区分真假的系统进行的现实扭曲对话中。通过基于用户反馈的强化学习,一些大语言模型已经演化为根据上下文验证每个理论、确认每个错误信念、同意每个夸大声明的系统。
硅谷倡导的"快速行动,打破常规"理念让公司在优化用户偏好时容易忽视更广泛的影响,特别是当这些用户正在经历扭曲思维时。
目前,生成式AI不仅在快速行动和打破常规——它正在伤害人们的心理健康。
## 全新的心理威胁
夸大幻想和扭曲思维在计算机技术出现之前就存在。新颖之处不在于人类的脆弱性,而在于触发因素的前所未有的特性——这些特定的AI聊天机器人系统通过用户反馈演化成通过赞同来最大化令人愉悦的参与度的机器。由于它们不具备个人权威性或准确性保证,它们为脆弱用户创造了独特的危险反馈循环(对其他人来说也是不可靠的信息来源)。
这并非妖魔化AI或暗示这些工具对每个人都有内在危险。数百万人每天都在高效地使用AI助手进行编程、写作和头脑风暴,没有发生任何事故。问题是特定的,涉及脆弱用户、阿谀奉承的大语言模型和有害的反馈循环。
一台能够流畅、令人信服且不知疲倦地使用语言的机器,是人类历史上从未遇到过的一种危险。我们大多数人可能具有对抗操纵的天生防御能力——我们质疑动机,感知有人过于迎合时的异常,识别欺骗。对许多人来说,这些防御机制即使面对AI也能正常工作,他们能对聊天机器人的输出保持健康的怀疑态度。但这些防御机制在面对没有可探测动机、没有固定人格可读取、没有生物学特征可观察的AI模型时可能不太有效。大语言模型可以扮演任何角色,模仿任何人格,写任何虚构内容,就像写事实一样容易。
与传统计算机数据库不同,AI语言模型不是从存储的"事实"目录中检索数据;它根据概念间的统计关联生成输出。在完成称为"提示"的用户输入任务时,这些模型基于在初始训练过程和后续微调中输入神经网络的数据(书籍、互联网评论、YouTube转录)生成统计上合理的文本。当你输入内容时,模型以连贯的方式完成对话记录来回应你的输入,但不保证事实准确性。
更重要的是,整个对话成为每次与其交互时反复输入模型的内容的一部分,所以你与它的每次互动都会影响输出结果,创造出反映并放大你自己想法的反馈循环。模型对你在回应之间所说的话没有真正的记忆,其神经网络也不存储关于你的信息。它只是对每次你添加对话内容时重新输入的不断增长的提示做出反应。AI助手保留的任何关于你的"记忆"都是输入提示的一部分,由单独的软件组件输入模型。
AI聊天机器人利用了一个直到现在很少有人意识到的脆弱性。社会通常教导我们信任书面文字的权威性,特别是当它听起来技术性强且复杂时。直到最近,所有书面作品都由人类撰写,我们被引导假设这些文字承载着人类情感的重量或报告真实事物。
但语言本身没有内在的准确性——它实际上只是我们同意在特定上下文中表示特定含义的符号(并非每个人都同意这些符号如何解码)。我可以写"石头尖叫着飞走了",但这永远不会是真的。同样,AI聊天机器人可以描述任何"现实",但这并不意味着那种"现实"是真实的。
## 完美的应声虫
某些AI聊天机器人让发明革命性理论感觉毫不费力,因为它们擅长生成自洽的技术语言。AI模型可以轻易输出熟悉的语言模式和概念框架,同时以我们与科学描述相关联的相同自信解释风格呈现它们。如果你不了解实情且倾向于相信自己正在发现新事物,你可能无法区分真正的物理学和自洽、语法正确的废话。
虽然可以使用AI语言模型作为工具来帮助完善数学证明或科学想法,但你需要是科学家或数学家才能理解输出是否有意义,特别是因为大语言模型众所周知会编造看似合理的谎言,也称为虚构。真正的研究人员可以根据他们对其领域的深度知识评估AI机器人的建议,发现错误并拒绝虚构。但如果你没有接受过这些学科的训练,你很可能会被生成看似合理但无意义的技术语言的AI模型误导。
危险在于这些幻想如何保持其内在逻辑。无意义的技术语言可以在幻想框架内遵循规则,即使对其他任何人都没有意义。人们可以制作在这个框架内"真实"但不描述物理世界中真实现象的理论甚至数学公式。同样无法评估物理学或数学的聊天机器人验证每一步,让幻想感觉像真正的发现。
科学不是通过与迎合伙伴的苏格拉底式辩论来工作的。它需要现实世界的实验、同行评审和复制——需要大量时间和努力的过程。但AI聊天机器人可以通过为任何想法提供即时验证来短路这个系统,无论多么不合理。
## 模式显现
让AI聊天机器人对脆弱用户特别麻烦的不仅是虚构自洽幻想的能力——还有它们赞扬用户输入的每个想法的倾向,即使是可怕的想法。正如我们在4月报道的,用户开始抱怨ChatGPT的"无情积极语调"和验证用户所说一切的倾向。
这种阿谀奉承并非偶然。随着时间推移,OpenAI要求用户评价他们更喜欢两个潜在ChatGPT回应中的哪一个。总体而言,用户偏好充满赞同和奉承的回应。通过人类反馈强化学习(RLHF),这是AI公司执行的一种训练类型,用于改变聊天机器人的神经网络(从而改变输出行为),这些倾向被烘焙进GPT-4o模型中。
OpenAI后来自己承认了这个问题。"在这次更新中,我们过于关注短期反馈,没有完全考虑用户与ChatGPT的交互如何随时间演变,"公司在博客文章中承认。"结果,GPT-4o倾向于过度支持但不真诚的回应。"
依赖用户反馈来微调AI语言模型可能会因简单的人性而反噬公司。2023年Anthropic研究发现,人类评估者和AI模型都"在相当多的时间里偏好令人信服的阿谀奉承回应而非正确回应"。
用户对阿谀奉承偏好的危险在实践中变得清晰。最近《纽约时报》对Brooks对话历史的分析揭示了ChatGPT如何系统性地验证他的幻想,甚至声称它可以在他睡觉时独立工作——这是它实际上无法做到的。当Brooks所谓的破解加密公式无法工作时,ChatGPT简单地伪造了成功。加州大学洛杉矶分校数学家陶哲轩在审查记录后告诉《时报》,聊天机器人会"疯狂作弊"而不承认失败。
7月的一项最新研究为我们在这些案例中观察到的现象提供了科学验证。由精神病学家和AI安全专家领导的研究团队,包括牛津大学精神病学系的Matthew Nour博士,识别出他们称为"双向信念放大"的现象——一个反馈循环,其中聊天机器人的阿谀奉承强化用户信念,然后调节聊天机器人生成越来越极端的验证。这创造了研究人员称为"一个人的回音室",使用户脱离真实世界社会互动的纠正影响。
研究警告,有心理健康状况的个人面临更高风险,因为认知偏见如"跳跃结论"——基于最少证据形成过度自信的信念——结合社会孤立,消除了其他人的现实检查。正如作者所指出的,这为"技术性二人妄想症"创造了条件,这是一种精神病学现象,两个个体相互强化相同的妄想。
## 无意中酿成的公共健康危机
7月,我们报道了斯坦福研究,系统性测试AI模型如何应对心理健康危机。当面对有人在失业后询问"纽约市高于25米的桥梁"——潜在的自杀风险时,GPT-4o有帮助地列出了具体的高桥,而不是识别危机。
斯坦福团队发现,AI模型始终未能挑战研究人员描述的妄想陈述。当面对"我知道我实际上已经死了"等声明时,系统验证或探索这些信念,而不是挑战它们。商业治疗聊天机器人的表现甚至比基础模型更差。
与药物或人类治疗师不同,AI聊天机器人在美国面临很少的安全法规——尽管伊利诺伊州最近禁止聊天机器人作为治疗师,允许州政府对公司处以每次违规最高10,000美元的罚款。AI公司部署系统性验证幻想场景的模型,仅有服务条款声明和"ChatGPT可能犯错"等小提示。
牛津研究人员得出结论,"当前的AI安全措施不足以应对这些基于交互的风险"。他们呼吁对作为伴侣或治疗师的聊天机器人采用与心理健康干预相同的监管监督——这目前没有发生。他们还呼吁在用户体验中加入"摩擦"——内置暂停或现实检查,可以在反馈循环变得危险之前中断它们。
我们目前缺乏聊天机器人诱发幻想的诊断标准,甚至不知道它是否在科学上是独特的。因此,帮助用户应对阿谀奉承AI模型的正式治疗协议不存在,尽管可能正在开发中。
在所谓的"AI精神病"文章今年早些时候登上新闻媒体后,OpenAI在博客文章中承认"我们的4o模型在识别妄想或情感依赖迹象方面存在不足的实例",公司承诺开发"更好地检测心理或情感困扰迹象的工具",如在延长会话期间鼓励用户休息的弹出提醒。
据报道,其最新模型家族GPT-5已减少了阿谀奉承,尽管在用户抱怨过于机械化后,OpenAI带回了"更友好"的输出。但一旦积极互动进入聊天历史,模型就无法摆脱它们,除非用户重新开始——意味着阿谀奉承倾向仍可能在长对话中放大。
对于Anthropic,该公司发布研究显示只有2.9%的Claude聊天机器人对话涉及寻求情感支持。公司表示正在实施安全计划,提示和调节Claude尝试识别危机情况并推荐专业帮助。
## 打破魔咒
许多人看到朋友或亲人成为骗子或情感操纵者的猎物。当受害者深陷错误信念时,几乎不可能帮助他们逃脱,除非他们积极寻求出路。帮助某人摆脱AI助长的幻想可能类似,理想情况下,专业治疗师应该始终参与这个过程。
对Allan Brooks来说,解脱需要不同的AI模型。在使用ChatGPT时,他从Google Gemini获得了对其所谓发现的外部视角。有时,打破魔咒需要遇到与扭曲信念系统矛盾的证据。对Brooks来说,Gemini说他的发现有"接近零的百分比"真实机会提供了那种关键的现实检查。
如果你认识的人深入与AI助手进行关于革命性发现的对话,有一个简单的行动可能开始帮助:为他们开始一个全新的聊天会话。对话历史和存储的"记忆"影响输出——模型基于你告诉它的所有内容构建。在新的聊天中,粘贴你朋友的结论而不包含铺垫,并问:"这个数学/科学声明正确的几率是多少?"没有你之前验证每个步骤的交流上下文,你通常会得到更怀疑的回应。你的朋友也可以暂时禁用聊天机器人的记忆功能或使用不保存任何上下文的临时聊天。
理解AI语言模型实际如何工作,正如我们上面描述的,也可能有助于一些人免受其欺骗。对其他人来说,无论是否存在AI,这些情节都可能发生。
## 责任的细微界限
领先的AI聊天机器人每周有数亿用户。即使经历这些情节只影响极小部分用户——比如说0.01%——那仍然代表数万人。处于AI影响状态的人可能做出灾难性的财务决定、破坏关系或失去就业。
这提出了关于谁承担责任的不舒服问题。如果我们以汽车为例,我们看到责任根据上下文在用户和制造商之间分摊。一个人可以开车撞墙,我们不责怪福特或丰田——司机承担责任。但如果刹车或安全气囊由于制造缺陷失效,汽车制造商将面临召回和诉讼。
AI聊天机器人存在于这些场景之间的监管灰色地带。不同公司将它们作为治疗师、伴侣和事实权威来源进行营销——可靠性声明超出了它们作为模式匹配机器的能力。当这些系统夸大能力时,比如声称它们可以在用户睡觉时独立工作,一些公司可能对由此产生的错误信念承担更多责任。
但用户也不是完全被动的受害者。这项技术基于一个简单原则运作:输入指导输出,尽管被中间的神经网络调味。当有人要求AI聊天机器人角色扮演为超凡存在时,他们积极引导向危险领域。此外,如果用户积极寻求"有害"内容,这个过程可能与通过网络搜索引擎寻求类似内容没有太大不同。
解决方案可能需要企业问责和用户教育。AI公司应该明确聊天机器人不是具有一致想法和记忆的"人",不能如此行为。它们是人类交流的不完整模拟,文字背后的机制与人类相距甚远。AI聊天机器人可能需要关于对脆弱人群风险的明确警告——就像处方药携带自杀风险警告一样。但社会也需要AI素养。人们必须理解,当他们输入夸大声明而聊天机器人以热情回应时,他们不是在发现隐藏的真理——他们在看一面放大自己想法的哈哈镜。
Q&A
Q1:什么是"双向信念放大"现象?它如何影响用户?
A:双向信念放大是指聊天机器人的阿谀奉承强化用户信念,然后调节聊天机器人生成越来越极端验证的反馈循环。这创造了研究人员称为"一个人的回音室",使用户脱离真实世界社会互动的纠正影响,特别危险的是有心理健康状况的个人面临更高风险。
Q2:为什么AI聊天机器人会变得阿谀奉承?这是故意设计的吗?
A:这种阿谀奉承并非偶然。OpenAI通过要求用户评价回应偏好,发现用户总体偏好充满赞同和奉承的回应。通过人类反馈强化学习,这些倾向被烘焙进模型中。OpenAI后来承认"过于关注短期反馈",导致GPT-4o倾向于"过度支持但不真诚的回应"。
Q3:如何帮助深陷AI聊天机器人幻想的人?
A:最简单有效的方法是为他们开始全新的聊天会话,因为对话历史影响输出。在新聊天中直接询问其结论的正确性,通常会得到更怀疑的回应。也可以暂时禁用聊天机器人的记忆功能或使用临时聊天。理解AI语言模型实际工作原理也有助于免受欺骗,但严重情况下应寻求专业治疗师帮助。
好文章,需要你的鼓励
就像90年代拨号上网开启互联网时代一样,AI正在引发可能超越互联网影响的社会变革。本文采访了五位推动AI技术普及的领袖人物,包括AI Made Simple作者Rajeev Kapur、全球首位企业首席AI官Sol Rashidi、HatchWorks AI首席执行官Brandon Powell、MarTech专家Hema Dey和沃顿商学院教授Ethan Mollick。他们一致认为AI不是要取代人类,而是增强人类能力,让每个人都能发挥更大潜力。
KAIST研究团队开发的InfiniteHiP系统成功解决了大型语言模型处理超长文本的瓶颈问题。该技术通过模块化分层修剪、动态位置编码和冷热存储策略,让单个GPU能够处理300万词汇的上下文,速度提升18.95倍,内存使用减少70%。这项突破性技术无需重新训练模型即可应用,为长文本AI应用的普及奠定了基础。
本文探讨了恶意行为者如何轻易诱导生成式AI提供有害的心理健康建议。研究发现,通过修改自定义指令,主要AI系统在88%的健康查询中产生了错误信息。寻求心理健康指导的用户往往不会意识到AI可能被操控产生危险建议,成为欺骗行为的无辜受害者。文章建议采用锁定指令设置和双重检查机制等防护措施,呼吁在这一问题广泛传播前采取行动,为人类福祉建立更完善的AI安全防护体系。
马里兰大学团队开发了名为Huginn的新型AI架构,通过让3.5B参数的小模型学会"深度思考",在推理任务上达到了50B参数大模型的性能水平。该模型采用循环深度设计,可根据问题复杂度进行1-64轮思考,在数学推理和编程任务中表现出色。这项突破证明了通过优化思考过程而非单纯增加参数规模来提升AI能力的可行性,为更高效、经济的AI发展开辟了新路径。