经典心理测试揭示AI注意力控制的根本局限

研究人员以经典"斯特鲁普测试"对多款主流大语言模型进行测试，结果显示AI在处理长列表干扰信息时存在明显局限。GPT-4o在5个词时准确率达91%，但扩展至40个词时骤降至15%；Claude 3.5 Sonnet在20词内表现稳定，40词时准确率跌至24%。研究指出，AI难以持续抑制其训练最强的默认响应，在注意力调控方面与人类大脑存在本质差异。

人工智能系统能够撰写文章、回答问题、解决复杂难题。但最新研究表明，它们可能在一件人类每天都在做的事情上存在明显不足：在干扰信息介入时，依然保持对任务本身的专注。

由Suketu Patel带领的研究团队，将多款主流AI模型纳入一项广为人知的心理学实验——斯特鲁普任务（Stroop Task）。实验结果揭示了AI系统处理信息的方式与人类大脑管理注意力机制之间的显著差异。

什么是斯特鲁普任务

斯特鲁普任务是一项经典心理测试，数十年来被广泛用于研究注意力、专注度和自我控制能力。

测试中，"红""蓝""绿"等颜色词汇以彩色墨水显示。有时词义与墨水颜色一致，例如"红"字以红色墨水书写；有时则相互冲突，例如"红"字以蓝色墨水呈现。

参与者被要求说出墨水的颜色，而非朗读词语本身。

这听起来很简单，但对大多数人来说其实颇具挑战——因为阅读文字是一种自动化习惯。大脑必须抑制阅读词语的冲动，转而专注于识别墨水颜色。

心理学家通常将这一任务用于衡量所谓的"执行控制能力"，即帮助人们调节注意力、抵抗干扰、保持目标专注的一系列心理过程。

测试AI的注意力

研究团队希望探究现代大语言模型在面对这一挑战时，是否会表现出与人类相似的应对方式。

大语言模型是ChatGPT、Claude、Gemini等AI工具背后的核心技术。这类系统经由海量文本训练，通过学习语言规律来生成常常令人惊叹的、近似人类表达的回应。

在给定仅含五个颜色词的短列表时，各AI系统普遍表现良好，即便词义与颜色不符也基本能够应对。

然而，随着列表长度增加，情况发生了显著变化。

GPT-4o在处理5个词时准确率为91%，增至10个词时降至57%，列表扩展至40个词时，准确率骤降至仅15%。

Claude 3.5 Sonnet在20个词以内保持了稳定表现，但在40个词的列表中同样出现断崖式下滑，准确率跌至24%。

研究人员在GPT-5、Claude Opus 4.1和Gemini 2.5中也观察到了类似规律。

当AI开始"分心"

当匹配与不匹配的颜色词同时出现在同一列表中时，任务难度进一步提升，模型表现随之明显恶化。在某些情况下，不匹配词项的准确率几乎降至零。

研究人员指出，AI模型难以持续遵循"识别墨水颜色"的指令，而是越来越倾向于直接读出词语本身。

换言之，这些系统似乎无法稳定地抑制它们在训练中被强化最多的那种反应。

这一发现尤为耐人寻味，因为人类同样面临类似的冲突。人类通常更擅长阅读文字，而非命名墨水颜色。然而尽管存在这种偏向，绝大多数人在面对大量冲突词语时，仍能保持较高的准确率和稳定表现。

人类注意力与机器注意力的本质差异

这项研究揭示了人类智能与人工智能之间的一个重要区别。

尽管现代AI系统在语言生成和推理方面已展现出令人印象深刻的能力，但其底层机制与生物大脑的注意力机制存在本质差异。

人类通常能够在过滤干扰信息的同时，持续专注于特定目标。而研究结果表明，当任务难度不断提升时，现有AI模型在这种认知控制能力上存在明显不足。

研究人员认为，实验中观察到的性能崩溃现象，指向了当前大语言模型的根本局限所在。AI有时能够模拟人类行为，但其维持注意力的方式，似乎与人类的运作机制存在根本性差异。

这项研究提醒我们：即便是最先进的AI系统，在面对需要抵抗干扰、持续专注于长序列信息的任务时，仍然存在不可忽视的弱点。

Q&A

Q1：斯特鲁普任务是什么？为什么用它来测试AI？

A：斯特鲁普任务是一项经典心理学测试，要求参与者说出颜色词的墨水颜色而非词语本身，常用于衡量注意力和自我控制能力。研究人员选择它来测试AI，是因为该任务能有效揭示系统在面对干扰信息时的认知控制能力，从而比较AI与人类在注意力机制上的本质差异。

Q2：大语言模型在斯特鲁普任务中的表现具体是怎样的？

A：在短列表（5个词）条件下，GPT-4o准确率达91%，表现良好。但随列表加长，准确率急剧下降：10个词时降至57%，40个词时仅剩15%。Claude 3.5 Sonnet在20个词以内保持稳定，但40个词时同样跌至24%。GPT-5、Claude Opus 4.1和Gemini 2.5也呈现出类似的性能下滑规律。

Q3：AI在斯特鲁普任务中失败，说明大语言模型存在什么问题？

A：研究表明，大语言模型难以在任务复杂度上升时持续抑制其被高度训练强化的默认反应——即直接读出词语。这反映出当前AI系统在执行控制和认知注意力维持方面存在根本局限，与人类大脑能够稳定过滤干扰、保持目标专注的机制存在本质差异。

来源：ScienceDaily

0赞

好文章，需要你的鼓励

经典心理测试揭示AI注意力控制的根本局限

来源：ScienceDaily

2026

06/12

13:46

分享

点赞

仿人机器人视觉与运动技术的精细调校

抵御AI驱动的数据融合攻击：芯片安全防护的关键挑战

GLM-5.2海外爆火，我们翻了1500条评论，看看用户在讨论什么

电动自行车的功过之辩：被忽视的那一面

Neo：印度科技大亨自掏3000万美元，打造微软Office的AI替代品

AI数据中心如何获得电网接入资格？公用事业公司的规划逻辑解析

Brookfield与Bloom能源将融资规模扩至250亿美元，押注AI数据中心独立供电

当CIO的技术提案遭到否决，该如何应对？

这款谷歌实验室 AI 应用如何成为我每日必用的工具

起亚EV5推出Storm特别版并新增全轮驱动选项

Meta效仿SpaceX，将过剩AI算力变现

Gemini Spark智能体登陆Mac，新增多项功能升级

大语言模型能否发现量子纠错码？IBM研究新突破

Boox Go 6 Gen II 发布：6英寸口袋电纸书新增手写笔支持

Gemini现可通过语音控制谷歌电视设置，但仅限特定型号

维基百科在iPhone上推出每日历史知识小游戏"哪个更早？"

PhoenixAI完成8000万美元融资，布局智能体AI就绪数据库技术

Coinbase推出面向智能体的独立账户，支持AI助手自主交易加密货币

IBM与ServiceNow携手合作，助力企业将AI引入传统系统

iOS 27新功能：支持在iPhone上自定义创建壁纸

Spotify修复iPhone应用图标，告别迪斯科球造型

Galaxy Z Fold 7迎来更新，新增两项Galaxy S26专属AI功能

如果您非常迫切的想了解IT领域最新产品与技术信息，那么订阅至顶网技术邮件将是您的最佳途径之一

三一集团：数字化是必选项，AI是生存项

因湃电池 × 达索系统：如何共创出一套电池产业最佳实践

AI走进真实世界之后：安全、健康与产业的新命题

CES 2026

关注官方公众号

关注官方微博

关注官方喜马拉雅

友情链接

业界热点: