人工智能系统能够撰写文章、回答问题、解决复杂难题。但最新研究表明,它们可能在一件人类每天都在做的事情上存在明显不足:在干扰信息介入时,依然保持对任务本身的专注。
由Suketu Patel带领的研究团队,将多款主流AI模型纳入一项广为人知的心理学实验——斯特鲁普任务(Stroop Task)。实验结果揭示了AI系统处理信息的方式与人类大脑管理注意力机制之间的显著差异。
什么是斯特鲁普任务
斯特鲁普任务是一项经典心理测试,数十年来被广泛用于研究注意力、专注度和自我控制能力。
测试中,"红""蓝""绿"等颜色词汇以彩色墨水显示。有时词义与墨水颜色一致,例如"红"字以红色墨水书写;有时则相互冲突,例如"红"字以蓝色墨水呈现。
参与者被要求说出墨水的颜色,而非朗读词语本身。
这听起来很简单,但对大多数人来说其实颇具挑战——因为阅读文字是一种自动化习惯。大脑必须抑制阅读词语的冲动,转而专注于识别墨水颜色。
心理学家通常将这一任务用于衡量所谓的"执行控制能力",即帮助人们调节注意力、抵抗干扰、保持目标专注的一系列心理过程。
测试AI的注意力
研究团队希望探究现代大语言模型在面对这一挑战时,是否会表现出与人类相似的应对方式。
大语言模型是ChatGPT、Claude、Gemini等AI工具背后的核心技术。这类系统经由海量文本训练,通过学习语言规律来生成常常令人惊叹的、近似人类表达的回应。
在给定仅含五个颜色词的短列表时,各AI系统普遍表现良好,即便词义与颜色不符也基本能够应对。
然而,随着列表长度增加,情况发生了显著变化。
GPT-4o在处理5个词时准确率为91%,增至10个词时降至57%,列表扩展至40个词时,准确率骤降至仅15%。
Claude 3.5 Sonnet在20个词以内保持了稳定表现,但在40个词的列表中同样出现断崖式下滑,准确率跌至24%。
研究人员在GPT-5、Claude Opus 4.1和Gemini 2.5中也观察到了类似规律。
当AI开始"分心"
当匹配与不匹配的颜色词同时出现在同一列表中时,任务难度进一步提升,模型表现随之明显恶化。在某些情况下,不匹配词项的准确率几乎降至零。
研究人员指出,AI模型难以持续遵循"识别墨水颜色"的指令,而是越来越倾向于直接读出词语本身。
换言之,这些系统似乎无法稳定地抑制它们在训练中被强化最多的那种反应。
这一发现尤为耐人寻味,因为人类同样面临类似的冲突。人类通常更擅长阅读文字,而非命名墨水颜色。然而尽管存在这种偏向,绝大多数人在面对大量冲突词语时,仍能保持较高的准确率和稳定表现。
人类注意力与机器注意力的本质差异
这项研究揭示了人类智能与人工智能之间的一个重要区别。
尽管现代AI系统在语言生成和推理方面已展现出令人印象深刻的能力,但其底层机制与生物大脑的注意力机制存在本质差异。
人类通常能够在过滤干扰信息的同时,持续专注于特定目标。而研究结果表明,当任务难度不断提升时,现有AI模型在这种认知控制能力上存在明显不足。
研究人员认为,实验中观察到的性能崩溃现象,指向了当前大语言模型的根本局限所在。AI有时能够模拟人类行为,但其维持注意力的方式,似乎与人类的运作机制存在根本性差异。
这项研究提醒我们:即便是最先进的AI系统,在面对需要抵抗干扰、持续专注于长序列信息的任务时,仍然存在不可忽视的弱点。
Q&A
Q1:斯特鲁普任务是什么?为什么用它来测试AI?
A:斯特鲁普任务是一项经典心理学测试,要求参与者说出颜色词的墨水颜色而非词语本身,常用于衡量注意力和自我控制能力。研究人员选择它来测试AI,是因为该任务能有效揭示系统在面对干扰信息时的认知控制能力,从而比较AI与人类在注意力机制上的本质差异。
Q2:大语言模型在斯特鲁普任务中的表现具体是怎样的?
A:在短列表(5个词)条件下,GPT-4o准确率达91%,表现良好。但随列表加长,准确率急剧下降:10个词时降至57%,40个词时仅剩15%。Claude 3.5 Sonnet在20个词以内保持稳定,但40个词时同样跌至24%。GPT-5、Claude Opus 4.1和Gemini 2.5也呈现出类似的性能下滑规律。
Q3:AI在斯特鲁普任务中失败,说明大语言模型存在什么问题?
A:研究表明,大语言模型难以在任务复杂度上升时持续抑制其被高度训练强化的默认反应——即直接读出词语。这反映出当前AI系统在执行控制和认知注意力维持方面存在根本局限,与人类大脑能够稳定过滤干扰、保持目标专注的机制存在本质差异。
好文章,需要你的鼓励
仿人机器人与自动驾驶汽车在区域架构、功能安全及雷达传感方面高度相似。多分辨率摄像头组合可更好地模拟人类视野,兼顾广角低保真与局部高精度需求。自然运动需实时计算正逆运动学、距离与深度,同时须兼顾功耗效率。当前视觉与基础操控技术最为成熟,而触觉、全身协调及非结构化环境中的移动能力仍是主要挑战。业界正借鉴自动驾驶经验,加速推进仿人机器人的规模化落地。
这项研究提出Epi2Diff方法,通过将大型推理模型的解题思考过程拆解为认知片段序列,提取过程特征预测考题对人类的难度,在四个真实考试数据集上超越了所有对比基线。
随着AI技术发展,攻击者可融合白市、灰市及黑市数据,构建个人及其环境的数字孪生体,使定向攻击更为便捷。专家指出,AI与网络安全的核心交汇点是数据本身。防御AI数据融合攻击需依赖硬件信任根、强加密、安全密钥存储及严格的数据匿名化措施。芯片架构师需将安全设计嵌入硬件层,确保数据完整性验证、隔离执行及认证数据流,以应对日益复杂的运行时攻击面。
南京大学与阿里巴巴提出MIMFlow,将掩码图像建模与标准化流端到端融合,让生成模型专注语义建模,以更少参数和更少令牌在ImageNet上取得FID 2.50的优异表现。