使用大语言模型工具的用户通常可以分为两大类。一类将AI视为强大但有时有缺陷的服务,需要仔细的人工监督和审查来检测回答中的推理或事实错误。另一类则经常将批判性思维外包给他们认为无所不知的机器。
最近的研究为第二类用户建立了一个新的心理学框架,他们经常对AI看似权威的答案进行"认知投降"。这项研究还通过实验探讨了人们何时以及为什么愿意将批判性思维外包给AI,以及时间压力和外部激励等因素如何影响这一决定。
只需询问答案机器
在"思考——快速、缓慢与人工智能:AI如何重塑人类推理和认知投降的兴起"研究中,宾夕法尼亚大学的研究人员基于现有学术成果,将决策制定分为两大类:一类由"快速、直觉和情感处理"(系统1)塑造;另一类由"缓慢、深思熟虑和分析推理"(系统2)塑造。研究人员认为,AI系统的出现创造了第三种新的"人工认知"类别,其中决策由"来自算法系统而非人类大脑的外部、自动化、数据驱动推理"驱动。
过去,人们经常使用从计算器到GPS系统的工具进行特定任务的"认知卸载",策略性地将一些工作委托给可靠的自动化算法,同时使用自己的内部推理来监督和评估结果。但研究人员认为,AI系统催生了一种本质不同的"认知投降"形式,用户"最少的内部参与",无监督或验证地全盘接受AI的推理。这种"对推理本身的非批判性放弃"在大语言模型的输出"流畅、自信或无摩擦地传递"时特别常见。
为了衡量这种对AI认知投降的普遍性和影响,研究人员基于认知反射测试进行了多项研究。这些测试旨在从默认"直觉"(系统1)思维过程的参与者中引出错误答案,但对于使用更多"深思熟虑"(系统2)思维过程的人来说相对容易回答。
在实验中,研究人员为参与者提供了一个经过修改的大语言模型聊天机器人的可选访问权限,该机器人被设置为对认知反射测试问题随机提供大约一半时间的不准确答案(另一半时间提供准确答案)。研究人员假设频繁咨询聊天机器人的用户会让那些错误答案"覆盖直觉和深思熟虑过程",损害他们的整体表现,凸显认知投降的危险。
在一项研究中,可以使用这个修改过的AI的实验组在大约50%的认知反射测试问题上咨询了它。当AI准确时,这些AI用户在93%的时间里接受其推理。然而,当AI随机"出错"时,这些用户仍然在80%的时间里接受AI推理,这个比例虽然较低但仍然很高,表明仅仅AI的存在就经常"取代了内部推理"。
毫不意外,当AI提供准确答案时,使用AI的实验组比"纯大脑"对照组表现好得多,而当AI不准确时表现要差得多。但值得注意的是,使用AI的群体在对自己答案信心的衡量上得分高出11.7%,尽管大语言模型有一半时间提供错误答案。
在另一项研究中,添加激励(以小额付款形式)和对正确答案的即时反馈,使参与者成功推翻错误AI的可能性相对基线增加了19个百分点,表明明显的后果可以鼓励AI用户花费额外时间验证回答。但以30秒计时器形式增加时间压力,使纠正错误AI的倾向减少了12个百分点,这向研究人员表明"当决策时间稀缺时,检测冲突和招募深思熟虑的内部监督器不太可能触发"。
降低审查门槛
总体而言,通过1372名参与者和超过9500次个人试验,研究人员发现受试者愿意在73.2%的时间里接受错误的AI推理,而只在19.7%的时间里推翻它。研究人员说这"证明了人们乐于将AI生成的输出纳入他们的决策过程,通常摩擦或怀疑极少"。总的来说,"流畅、自信的输出被视为认识论上的权威,降低了审查门槛,减弱了通常会将回答导向深思熟虑的元认知信号"。
这些效应在所有测试对象中并非均匀分布。在所谓流体智商的单独测量中得分较高的人不太可能依赖AI寻求帮助,在咨询时更可能推翻错误的AI。另一方面,在调查中倾向于将AI视为权威的人更容易被错误的AI提供的答案误导。
尽管有这些结果,研究人员指出"认知投降本身并不是不理性的"。虽然依赖一个有一半时间是错误的大语言模型(如这些实验中的情况)有明显的缺点,但一个"统计上更优秀的系统"在"概率设置、风险评估或大量数据"等领域可能会产生超越人类的结果。
研究人员写道:"随着依赖性增加,表现跟踪AI质量,在准确时上升,在错误时下降,说明了超级智能的前景并暴露了认知投降的结构性脆弱性。"
换句话说,让AI进行推理意味着你的推理永远只能和那个AI系统一样好。一如既往,使用者需要谨慎。
Q&A
Q1:什么是认知投降?
A:认知投降是指用户对AI系统进行"最少的内部参与",无监督或验证地全盘接受AI的推理。这是一种"对推理本身的非批判性放弃",特别在大语言模型的输出流畅、自信地传递时更常见。
Q2:研究中用户接受错误AI推理的比例有多高?
A:通过1372名参与者和超过9500次试验,研究发现用户在73.2%的时间里接受错误的AI推理,只在19.7%的时间里推翻它。当AI准确时,用户93%接受其推理;当AI出错时,仍有80%的用户接受。
Q3:哪些因素会影响用户对AI的依赖程度?
A:研究发现,流体智商高的人不太可能依赖AI且更可能推翻错误AI。倾向于将AI视为权威的人更容易被误导。此外,激励措施可以增加用户验证回答的倾向,而时间压力则会减少这种倾向。
好文章,需要你的鼓励
企业AI搜索公司Glean宣布年度经常性收入(ARR)达3亿美元,较15个月前的1亿美元增长三倍。尽管谷歌、微软、OpenAI等科技巨头纷纷入局企业AI搜索市场,Glean凭借"上下文图谱"技术深度理解企业业务需求,并帮助客户显著降低AI计算成本。该公司提供按用量计费和混合定价两种模式,客户涵盖Databricks、Reddit、Pinterest及三星等企业。Glean上轮融资后估值达72亿美元。
香港中文大学与MiniMax提出ClaimDiff-RL框架,将图像描述的AI训练从整体打分升级为逐条核查,有效解决了传统方式导致AI"少说保平安"的问题,同时在多项基准测试上超越Gemini-3-Pro-Preview。
杰夫·贝索斯旗下的蓝色起源公司在佛罗里达卡纳维拉尔角进行静态点火测试时,新格伦重型火箭发生爆炸。这是美国历史上最大规模的火箭爆炸之一,也是蓝色起源公司遭遇的最严重失败。所有人员安全,但该事故可能导致新格伦火箭项目长期暂停。此前该火箭已成功完成三次发射,并实现了助推器回收和重复使用。
ParaVT是一个由南洋理工等多校联合提出的并行视频工具调用框架,通过让AI同时分析多段视频并引入PARA-GRPO算法解决训练中的格式崩溃与工具跳过问题,在六项长视频理解测试中平均提升约7.9%。