当今的AI系统可以进行令人印象深刻的推理,但它们仍然难以知道何时需要再看一眼。人类使用元认知作为思维与感知之间的反馈循环:我们扫描、形成假设、感知不确定性,然后将注意力集中在需要更多细节的地方。AI需要在其模型与所依赖的数据之间建立类似的循环。
但大多数视觉和传感器数据仍以单体格式存储,这迫使系统检索、解码和处理远超任务所需的信息量。对于智能体、视觉AI和物理AI来说,这不仅效率低下,还限制了主动感知的能力。
因此,AI的下一代数据架构必须是分层的、并行的、计算感知的:一种让模型首先访问概要信息,然后有选择地仅查询解决不确定性所需的区域、平面或细节层级的结构。从这个意义上说,数据成为AI感知的API。
前沿AI模型的挑战
如果你想看到一个"前沿"AI模型遇到困难,可以给它"人类最后的考试"(HLE)。这项由AI安全中心及其合作者发布的测试,是新一代专家级基准测试的一部分,旨在测试模型在人类知识边缘的表现。
这些测试之所以困难,不仅因为答案晦涩难懂。它们揭示了更深层的问题:即使是高度能干的推理模型也无法可靠地知道自己何时不知道。它们的错误往往不是试探性的,而是以与正确答案相同的自信"语气"和高内部概率出现。
相比之下,作为人类的你拥有元认知(对思维的思考)。当你看到关于蜂鸟籽骨的问题时,你会立即扫描记忆,发现"文件未找到"错误,并感受到无知的感觉。你会停下来,重新引导感官去寻找更多信息。每当看到意外情况时,你可能都会这样做。
问题不在于AI没有不确定性机制,而在于当今的主流架构没有与人类主动感知相当的强大、具身化、低延迟的感知循环。
AI系统可以被设计为估计不确定性、检索信息或自我检查。但这些机制仍然脆弱且昂贵,特别是当它们需要反复重新加载、解码和预处理大量感官数据时。缺少的不仅是更好的推理,还有不确定性与感知之间廉价的物理接口:有选择地再看一眼的能力。
为什么推理模型做不到这一点
为什么最先进的"推理"模型无法做到这一点?有三个结构性原因:
预测不等于自我认知:模型可以生成合理的答案,但没有可靠的内部信号说"我需要更多证据"。
推理循环通常与感官循环分离:即使模型可以深思熟虑,底层的视觉或传感器数据通常是作为固定表示"一次性"摄入的,而不是动态查询的。
数据层大多是静态的:这是最容易被忽视的。我们当前的数据格式(从PDF到JPEG到视频)都是单体的,因此使得重复的、选择性的感知变得昂贵。它们是"要么全要,要么不要"。如果AI想要验证4K图像中的一个微小细节,通常必须将整个文件移动并解码到内存中。它无法"廉价地瞥一眼"然后"聚焦"到细节上。
AI需要的感知反馈循环
为了实现下一级别的智能,Yann LeCun正在研究他所称的"联合嵌入预测架构"(JEPA),谷歌则在研究所谓的智能体视觉。简单来说,AI需要在其"大脑"和"感官"之间建立反馈循环。但一个拥有多个传感器的实时系统,不能每次想检查单个细节时都等待100毫秒来完全检索和解码单体文件。它需要即时、随机访问任何传感器的数据,包括快速查看"概要"的能力。
在人类中,你可以快速扫描周围的环境。然后你的大脑告诉你的眼睛:"角落里那个模糊的形状看起来像威胁;仔细看看"。你的眼睛随即立即提供该区域的高分辨率"裁剪"。
为了让AI做到这一点,我们需要一个计算感知的、分层的数据架构。我们需要数据像感知API一样运作,允许模型交互式地查询它。AI必须能够:
检索"概要"(数据的一小部分)以形成假设。
评估自己的置信度。
仅查询确认该假设所需的特定高分辨率残差。
视觉AI和物理AI的关键需求
这种架构对于聊天机器人来说可能是"锦上添花"的成本/能源节省,但对于下一波AI——视觉AI和物理AI——来说,它是生死攸关的要求。特别是在实时用例中,你无法通过"批处理"来摆脱低效率。
当NVIDIA Cosmos等系统、自动驾驶汽车或机器人在复杂环境中实时导航时,瓶颈不仅是"更智能的模型",而是I/O、内存移动和数据预处理,这些都发生在AI的张量处理开始之前。
如果每个传感器(雷达、激光雷达、4K视频、MRI、CT扫描、压力图、热图等)在AI模型甚至决定数据是否相关之前都需要完全检索和完全解码,系统就会失败,或者至少变得更慢、更耗电、可扩展性更差。
在之前的一篇文章中,作者认为视觉AI存在"万亿美元盲点",即系统移动、解码和预处理远超所需数据量所造成的浪费。但还有更深层的含义。这不仅是效率问题,也是感知问题,影响准确性、延迟和最终结果。
万亿美元盲点是如果我们避免这种浪费,转而在AI需要时给它所需内容,所能获得的价值。
分层数据架构的解决方案
AI需要在其"大脑"和"感官"之间建立反馈循环。如果"感官"(数据格式)只提供单体文件,AI就无法进行第二次有针对性的查看。
这正是V-Nova公司多年来一直在解决的问题类别:使视觉数据分层化、并行化和可选择性访问,以便应用程序只检索所需的质量级别、区域或平面。SMPTE VC-6和MPEG-5 LCEVC等标准是这种从媒体作为文件到媒体作为接口的更广泛转变的实际例子。
这就像试图当侦探,却只能透过磨砂窗户看东西,而清理窗户的唯一方法是打碎整块玻璃。
通过转向VC-6等分层并行数据结构,我们允许AI"在霜上擦出一个小圆圈"。我们给它一个数字中央凹。
在仓库中导航的机器人可能首先处理场景的低质量视图,检测到移动物体周围的模糊性,然后仅请求该感兴趣区域和传感器的更高分辨率残差。重点不是始终更好地看到一切,而是在正确的时刻更好地看到正确的事物。
重要的是,数据格式不决定什么重要。模型、智能体或应用程序仍然做出该决定。数据架构的作用更为谦逊但基本:它使选择性感知足够便宜,以至于模型能够对自己的输入提出更好的问题。
结论
如果推理模型将大部分能量浪费在处理无关数据上,它就不是真正"智能"的。元认知需要一个尊重AI有限计算预算的数据架构。通过将数据视为可查询的接口,我们不仅节省了能源,还赋予了AI聚焦的能力。在下一波AI浪潮中,聚焦可能是终极前沿。
Q&A
Q1:什么是AI的元认知能力?为什么它很重要?
A:元认知是指AI系统能够"思考自己的思考",知道自己何时不知道答案,并能感知不确定性。这很重要,因为当前的AI模型即使在不确定时也会以高置信度给出答案,无法像人类那样在遇到不确定情况时主动寻求更多信息。元认知能力让AI能够建立思维与感知之间的反馈循环。
Q2:为什么当前的数据格式限制了AI的感知能力?
A:当前的数据格式如JPEG、视频等都是单体格式,AI如果想查看其中的一个小细节,必须加载和解码整个文件,无法像人类眼睛那样"快速扫描概要,然后聚焦细节"。这使得重复的、选择性的感知变得昂贵且低效,特别是在实时场景中会造成严重的延迟和能耗问题。
Q3:分层数据架构如何帮助视觉AI和物理AI?
A:分层数据架构允许AI首先访问数据的"概要"形成假设,评估置信度后,仅查询解决不确定性所需的特定高分辨率区域。这对自动驾驶汽车、机器人等实时系统至关重要,因为它们需要快速处理多个传感器数据,分层架构可以大幅降低I/O、内存移动和预处理的开销,提高响应速度和能效。
好文章,需要你的鼓励
今天讲的出海案例是利亚德,这家 1995 年成立、从 LED 显示产品研发生产销售起步,并做到小间距和 Micro LED 的视效科技公司,沙特工厂预计 2026 年 7 月投产。
ATLAS是由香港中文大学与Meta AI联合提出的视觉推理框架,将视觉操作压缩为词典中的五个特殊词汇,让AI无需生成图片或调用外部工具,即可完成复杂的交互式视觉推理。
谷歌在I/O 2026大会上宣布,Android Auto将对媒体应用进行重大界面升级。此次更新基于Car App Library v1.9.0-alpha01,引入扩展标题、聚焦区域、新型进度条、快捷芯片和迷你播放器等全新组件,提升布局灵活性。开发者可申请加入测试计划提前体验,Spotify、YouTube等热门应用将率先采用新设计。
SPIN是由纽约州立大学奥尔巴尼分校与IBM联合提出的工业AI规划框架,通过格式验证修复和前缀渐进执行控制,在减少40%执行步骤的同时提升任务完成率。