新加坡AI初创公司Sapient Intelligence开发了一种新型AI架构,能够在复杂推理任务上匹敌甚至大幅超越大语言模型,同时具有更小的规模和更高的数据效率。
这种被称为分层推理模型(HRM)的架构,灵感来源于人脑如何利用不同系统进行缓慢、深思熟虑的规划和快速、直觉性计算。该模型仅需当今大语言模型所需数据和内存的一小部分就能取得令人印象深刻的结果。这种效率对于数据稀缺和计算资源有限的真实企业AI应用具有重要意义。
**思维链推理的局限性**
面对复杂问题时,当前的大语言模型主要依赖思维链(CoT)提示,将问题分解为基于文本的中间步骤,本质上是强迫模型在寻找解决方案时"大声思考"。
虽然CoT改善了大语言模型的推理能力,但它有根本性局限。Sapient Intelligence的研究人员在论文中指出:"用于推理的CoT是一根拐杖,而非令人满意的解决方案。它依赖于脆弱的、人为定义的分解,其中单个错误步骤或步骤顺序错误就可能完全破坏整个推理过程。"
这种对生成明确语言的依赖将模型的推理束缚在Token层面,通常需要大量训练数据并产生冗长、缓慢的响应。这种方法还忽视了内部发生的"潜在推理"类型,这种推理无需用语言明确表达。
研究人员指出:"需要一种更高效的方法来最小化这些数据需求。"
**受大脑启发的分层方法**
为了超越CoT,研究人员探索了"潜在推理",即模型不生成"思维Token",而是在其内部抽象表示中进行推理。这更符合人类思维方式;如论文所述:"大脑在潜在空间中以卓越效率维持冗长、连贯的推理链,无需不断转换回语言。"
然而,在AI中实现这种深度内部推理具有挑战性。简单地在深度学习模型中堆叠更多层次往往导致"梯度消失"问题,使学习信号在各层间减弱,令训练失效。另一种选择是循环架构,通过循环计算,但可能遭受"早期收敛"问题,即模型过快确定解决方案而未充分探索问题。
寻求更好方法的Sapient团队转向神经科学寻求解决方案。研究人员写道:"人脑为实现当代人工模型所缺乏的有效计算深度提供了引人注目的蓝图。它在不同时间尺度运行的皮层区域间分层组织计算,实现深度、多阶段推理。"
受此启发,他们设计了具有两个耦合循环模块的HRM:用于缓慢抽象规划的高层(H)模块,和用于快速详细计算的低层(L)模块。这种结构实现了团队称为"分层收敛"的过程。直观地说,快速L模块处理问题的一部分,执行多个步骤直到达到稳定的局部解决方案。此时,缓慢的H模块接受这个结果,更新其整体策略,并给L模块一个新的、精制的子问题去处理。这有效地重置了L模块,防止其陷入困境(早期收敛),并允许整个系统在不遭受梯度消失的精简模型架构中执行长序列推理步骤。
论文称:"这个过程允许HRM执行一系列不同的、稳定的、嵌套的计算,其中H模块指导整体问题解决策略,L模块执行每个步骤所需的密集搜索或优化。"这种嵌套循环设计允许模型在其潜在空间中深度推理,无需长CoT提示或大量数据。
一个自然的问题是这种"潜在推理"是否以可解释性为代价。Sapient Intelligence创始人兼CEO王冠反驳了这种观点,解释说模型的内部过程可以被解码和可视化,类似于CoT提供模型思维窗口的方式。他还指出CoT本身可能具有误导性。王冠告诉VentureBeat:"CoT并不真正反映模型的内部推理",他引用研究显示模型有时可以通过错误的推理步骤得出正确答案,反之亦然。"它本质上仍然是一个黑盒。"
**HRM实际应用**
为了测试模型,研究人员让HRM与需要广泛搜索和回溯的基准测试对抗,如抽象和推理语料库(ARC-AGI)、极其困难的数独谜题和复杂的迷宫求解任务。
结果显示HRM学会解决甚至先进大语言模型都难以处理的问题。例如,在"数独-极限"和"迷宫-困难"基准测试中,最先进的CoT模型完全失败,准确率为0%。相比之下,HRM在每个任务仅用1000个样本训练后就达到了接近完美的准确率。
在测试抽象推理和泛化的ARC-AGI基准测试中,2700万参数的HRM得分40.3%。这超过了领先的基于CoT的模型,如更大的o3-mini-high(34.5%)和Claude 3.7 Sonnet(21.2%)。这种在没有大型预训练语料库和非常有限数据条件下取得的性能,突出了其架构的力量和效率。
虽然解决谜题证明了模型的能力,但现实世界的意义在于不同类别的问题。据王冠介绍,开发者应该继续将大语言模型用于基于语言或创意任务,但对于"复杂或确定性任务",类似HRM的架构以更少的幻觉提供优越性能。他指出"需要复杂决策或长期规划的序列问题",特别是在对延迟敏感的领域,如具身AI和机器人技术,或数据稀缺领域如科学探索。
在这些场景中,HRM不仅解决问题,还学会更好地解决问题。王冠解释:"在我们的大师级数独实验中...HRM随着训练进展需要的步骤逐渐减少——类似于新手成为专家。"
对于企业而言,这正是架构效率直接转化为底线的地方。与CoT串行的、逐Token生成不同,HRM的并行处理允许王冠估计的"任务完成时间100倍加速"。这意味着更低的推理延迟和在边缘设备上运行强大推理的能力。
成本节约也很可观。王冠说:"针对特定复杂推理任务,像HRM这样的专门推理引擎与大型、昂贵、高延迟的基于API的模型相比提供了更有前景的替代方案。"为了说明效率,他指出训练专业级数独的模型大约需要两个GPU小时,而复杂的ARC-AGI基准测试需要50到200个GPU小时——仅为大规模基础模型所需资源的一小部分。这为解决专门的商业问题开辟了道路,从物流优化到复杂系统诊断,在数据和预算都有限的情况下。
展望未来,Sapient Intelligence已在努力将HRM从专门的问题解决器发展为更通用的推理模块。王冠说:"我们正在积极开发基于HRM构建的脑启发模型",强调在医疗保健、气候预测和机器人技术方面的有希望的初步结果。他透露这些下一代模型将与今天基于文本的系统显著不同,特别是通过包含自我纠正能力。
这项工作表明,对于困扰当今AI巨头的一类问题,前进的道路可能不是更大的模型,而是受终极推理引擎——人脑启发的更智能、更结构化的架构。
好文章,需要你的鼓励
阿联酋阿布扎比人工智能大学发布全新PAN世界模型,超越传统大语言模型局限。该模型具备通用性、交互性和长期一致性,能深度理解几何和物理规律,通过"物理推理"学习真实世界材料行为。PAN采用生成潜在预测架构,可模拟数千个因果一致步骤,支持分支操作模拟多种可能未来。预计12月初公开发布,有望为机器人、自动驾驶等领域提供低成本合成数据生成。
意大利ISTI研究院推出Patch-ioner零样本图像描述框架,突破传统局限实现任意区域精确描述。系统将图像拆分为小块,通过智能组合生成从单块到整图的统一描述,无需区域标注数据。创新引入轨迹描述任务,用户可用鼠标画线获得对应区域描述。在四大评测任务中全面超越现有方法,为人机交互开辟新模式。
AI代码编辑器开发商Cursor完成23亿美元D轮融资,估值达293亿美元。Accel和Coatue领投,Google、Nvidia等参与。公司年化收入已突破10亿美元。Cursor基于微软开源VS Code打造,集成大语言模型帮助开发者编写代码和修复漏洞。其自研Composer模型采用专家混合算法,运行速度比同等质量模型快四倍。公司拥有数百万开发者用户,将用新资金推进AI研究。
MIT研究团队发现,AI系统无需严格配对的多模态数据也能显著提升性能。他们开发的UML框架通过参数共享让AI从图像、文本、音频等不同类型数据中学习,即使这些数据间没有直接对应关系。实验显示这种方法在图像分类、音频识别等任务上都超越了单模态系统,并能自发发展出跨模态理解能力,为未来AI应用开辟了新路径。