新加坡AI初创公司Sapient Intelligence开发了一种新型AI架构,能够在复杂推理任务上匹敌甚至大幅超越大语言模型,同时具有更小的规模和更高的数据效率。
这种被称为分层推理模型(HRM)的架构,灵感来源于人脑如何利用不同系统进行缓慢、深思熟虑的规划和快速、直觉性计算。该模型仅需当今大语言模型所需数据和内存的一小部分就能取得令人印象深刻的结果。这种效率对于数据稀缺和计算资源有限的真实企业AI应用具有重要意义。
**思维链推理的局限性**
面对复杂问题时,当前的大语言模型主要依赖思维链(CoT)提示,将问题分解为基于文本的中间步骤,本质上是强迫模型在寻找解决方案时"大声思考"。
虽然CoT改善了大语言模型的推理能力,但它有根本性局限。Sapient Intelligence的研究人员在论文中指出:"用于推理的CoT是一根拐杖,而非令人满意的解决方案。它依赖于脆弱的、人为定义的分解,其中单个错误步骤或步骤顺序错误就可能完全破坏整个推理过程。"
这种对生成明确语言的依赖将模型的推理束缚在Token层面,通常需要大量训练数据并产生冗长、缓慢的响应。这种方法还忽视了内部发生的"潜在推理"类型,这种推理无需用语言明确表达。
研究人员指出:"需要一种更高效的方法来最小化这些数据需求。"
**受大脑启发的分层方法**
为了超越CoT,研究人员探索了"潜在推理",即模型不生成"思维Token",而是在其内部抽象表示中进行推理。这更符合人类思维方式;如论文所述:"大脑在潜在空间中以卓越效率维持冗长、连贯的推理链,无需不断转换回语言。"
然而,在AI中实现这种深度内部推理具有挑战性。简单地在深度学习模型中堆叠更多层次往往导致"梯度消失"问题,使学习信号在各层间减弱,令训练失效。另一种选择是循环架构,通过循环计算,但可能遭受"早期收敛"问题,即模型过快确定解决方案而未充分探索问题。
寻求更好方法的Sapient团队转向神经科学寻求解决方案。研究人员写道:"人脑为实现当代人工模型所缺乏的有效计算深度提供了引人注目的蓝图。它在不同时间尺度运行的皮层区域间分层组织计算,实现深度、多阶段推理。"
受此启发,他们设计了具有两个耦合循环模块的HRM:用于缓慢抽象规划的高层(H)模块,和用于快速详细计算的低层(L)模块。这种结构实现了团队称为"分层收敛"的过程。直观地说,快速L模块处理问题的一部分,执行多个步骤直到达到稳定的局部解决方案。此时,缓慢的H模块接受这个结果,更新其整体策略,并给L模块一个新的、精制的子问题去处理。这有效地重置了L模块,防止其陷入困境(早期收敛),并允许整个系统在不遭受梯度消失的精简模型架构中执行长序列推理步骤。
论文称:"这个过程允许HRM执行一系列不同的、稳定的、嵌套的计算,其中H模块指导整体问题解决策略,L模块执行每个步骤所需的密集搜索或优化。"这种嵌套循环设计允许模型在其潜在空间中深度推理,无需长CoT提示或大量数据。
一个自然的问题是这种"潜在推理"是否以可解释性为代价。Sapient Intelligence创始人兼CEO王冠反驳了这种观点,解释说模型的内部过程可以被解码和可视化,类似于CoT提供模型思维窗口的方式。他还指出CoT本身可能具有误导性。王冠告诉VentureBeat:"CoT并不真正反映模型的内部推理",他引用研究显示模型有时可以通过错误的推理步骤得出正确答案,反之亦然。"它本质上仍然是一个黑盒。"
**HRM实际应用**
为了测试模型,研究人员让HRM与需要广泛搜索和回溯的基准测试对抗,如抽象和推理语料库(ARC-AGI)、极其困难的数独谜题和复杂的迷宫求解任务。
结果显示HRM学会解决甚至先进大语言模型都难以处理的问题。例如,在"数独-极限"和"迷宫-困难"基准测试中,最先进的CoT模型完全失败,准确率为0%。相比之下,HRM在每个任务仅用1000个样本训练后就达到了接近完美的准确率。
在测试抽象推理和泛化的ARC-AGI基准测试中,2700万参数的HRM得分40.3%。这超过了领先的基于CoT的模型,如更大的o3-mini-high(34.5%)和Claude 3.7 Sonnet(21.2%)。这种在没有大型预训练语料库和非常有限数据条件下取得的性能,突出了其架构的力量和效率。
虽然解决谜题证明了模型的能力,但现实世界的意义在于不同类别的问题。据王冠介绍,开发者应该继续将大语言模型用于基于语言或创意任务,但对于"复杂或确定性任务",类似HRM的架构以更少的幻觉提供优越性能。他指出"需要复杂决策或长期规划的序列问题",特别是在对延迟敏感的领域,如具身AI和机器人技术,或数据稀缺领域如科学探索。
在这些场景中,HRM不仅解决问题,还学会更好地解决问题。王冠解释:"在我们的大师级数独实验中...HRM随着训练进展需要的步骤逐渐减少——类似于新手成为专家。"
对于企业而言,这正是架构效率直接转化为底线的地方。与CoT串行的、逐Token生成不同,HRM的并行处理允许王冠估计的"任务完成时间100倍加速"。这意味着更低的推理延迟和在边缘设备上运行强大推理的能力。
成本节约也很可观。王冠说:"针对特定复杂推理任务,像HRM这样的专门推理引擎与大型、昂贵、高延迟的基于API的模型相比提供了更有前景的替代方案。"为了说明效率,他指出训练专业级数独的模型大约需要两个GPU小时,而复杂的ARC-AGI基准测试需要50到200个GPU小时——仅为大规模基础模型所需资源的一小部分。这为解决专门的商业问题开辟了道路,从物流优化到复杂系统诊断,在数据和预算都有限的情况下。
展望未来,Sapient Intelligence已在努力将HRM从专门的问题解决器发展为更通用的推理模块。王冠说:"我们正在积极开发基于HRM构建的脑启发模型",强调在医疗保健、气候预测和机器人技术方面的有希望的初步结果。他透露这些下一代模型将与今天基于文本的系统显著不同,特别是通过包含自我纠正能力。
这项工作表明,对于困扰当今AI巨头的一类问题,前进的道路可能不是更大的模型,而是受终极推理引擎——人脑启发的更智能、更结构化的架构。
好文章,需要你的鼓励
许多人认为一旦实现通用人工智能(AGI)和人工智能超级智能(ASI),这些高度先进的AI将能够告诉我们人生的真正意义。然而,巅峰AI可能无法明确回答这个史诗般的问题。即使AI拥有人类所有知识,也不意味着能从中找到生命意义的答案。AI可能会选择提供多种可能性而非绝对答案,以避免分裂人类社会。
华盛顿大学研究团队发现,大型语言模型在未接受手语训练的情况下,竟然具备理解德语手语的能力。通过系统实验,他们证实了模型能够判断手语语法正确性,并进行手语与文字间的翻译。这种"涌现的多模态能力"源于模型对语言抽象结构的深度理解,为开发手语翻译技术和改善聋哑人群数字交流体验开启了新可能。
剑桥咨询CEO蒙蒂·巴洛在采访中分享了如何识别具有潜力的技术领域。他表示,当听到看似不可能或令人惊讶的技术时会特别关注,如深度学习AI、量子计算等。该公司作为"深度科技强国",专注于生物工程、人工智能、量子计算等领域,拥有740名员工,年均为客户创造5000多项专利。巴洛强调跨学科合作的重要性,预测未来计算机系统的应用需求将大幅增长。
谷歌DeepMind团队提出STAR方法,通过模仿苏格拉底教学法让AI学会类比推理,解决传统AI无法"举一反三"的问题。实验显示该方法显著提升AI处理新问题的能力,在逻辑推理准确率从40%提升至75%以上。这项突破为创造真正智能的AI系统指明方向,未来将在教育、医疗、创意设计等领域产生重要应用价值。