日本人工智能实验室 Sakana AI 推出了一项新技术,允许多个大语言模型在单一任务上协作,有效地创建了一个人工智能智能体的"梦之队"。这种名为 Multi-LLM AB-MCTS 的方法使模型能够进行试错并结合各自独特的优势,解决对任何单个模型来说都过于复杂的问题。
对于企业而言,这种方法提供了开发更强大、更可靠的人工智能系统的途径。企业不必局限于单一供应商或模型,可以动态利用不同前沿模型的最佳特性,为任务的不同部分分配合适的人工智能,从而获得卓越的结果。
**集体智慧的力量**
前沿人工智能模型正在快速发展。然而,每个模型都有其源于独特训练数据和架构的不同优势和劣势。一个模型可能在编程方面表现出色,而另一个可能在创意写作方面更胜一筹。Sakana AI 的研究人员认为,这些差异不是缺陷,而是特色。
"我们认为这些偏见和不同的能力不是限制,而是创造集体智慧的宝贵资源,"研究人员在博客文章中表示。他们相信,正如人类最伟大的成就来自多元化团队一样,人工智能系统也可以通过协作取得更大成就。"通过汇集智慧,人工智能系统可以解决任何单一模型都无法克服的问题。"
**在推理时间进行更深入的思考**
Sakana AI 的新算法是一种"推理时扩展"技术(也称为"测试时扩展"),这是过去一年中非常热门的研究领域。虽然人工智能领域的大部分关注点都集中在"训练时扩展"(使模型更大并在更大的数据集上训练),但推理时扩展通过在模型已经训练完成后分配更多计算资源来提高性能。
一种常见方法是使用强化学习来提示模型生成更长、更详细的思维链序列,如在 OpenAI o3 和 DeepSeek-R1 等流行模型中所见。另一种更简单的方法是重复采样,即对模型多次给出相同提示以生成各种潜在解决方案,类似于头脑风暴会议。Sakana AI 的工作结合并推进了这些想法。
"我们的框架提供了更智能、更具策略性的 Best-of-N(即重复采样)版本,"Sakana AI 研究科学家、论文共同作者 Takuya Akiba 告诉 VentureBeat。"它通过强化学习补充了长思维链等推理技术。通过动态选择搜索策略和合适的大语言模型,这种方法在有限的大语言模型调用次数内最大化性能,在复杂任务上提供更好的结果。"
**自适应分支搜索的工作原理**
新方法的核心是一个名为自适应分支蒙特卡洛树搜索(AB-MCTS)的算法。它使大语言模型能够通过智能地平衡两种不同的搜索策略来有效地进行试错:"深度搜索"和"广度搜索"。深度搜索涉及采用一个有前景的答案并反复改进它,而广度搜索意味着从头开始生成全新的解决方案。AB-MCTS 结合了这些方法,允许系统改进一个好想法,但如果遇到死胡同或发现另一个有前景的方向,也可以转向尝试新的东西。
为了实现这一点,系统使用蒙特卡洛树搜索(MCTS),这是一种决策算法,因被 DeepMind 的 AlphaGo 使用而闻名。在每一步,AB-MCTS 使用概率模型来决定改进现有解决方案还是生成新解决方案在策略上更有利。
研究人员通过 Multi-LLM AB-MCTS 进一步推进了这项技术,它不仅决定"做什么"(改进vs生成),还决定"哪个"大语言模型应该来做。在任务开始时,系统不知道哪个模型最适合这个问题。它首先尝试可用大语言模型的平衡组合,随着进展,学习哪些模型更有效,随着时间的推移将更多工作负载分配给它们。
**测试人工智能"梦之队"**
研究人员在 ARC-AGI-2 基准测试上测试了他们的 Multi-LLM AB-MCTS 系统。ARC(抽象和推理语料库)旨在测试解决新颖视觉推理问题的类人能力,使其对人工智能来说极其困难。
该团队使用了包括 o4-mini、Gemini 2.5 Pro 和 DeepSeek-R1 在内的前沿模型组合。
模型集合能够为 120 个测试问题中超过 30% 的问题找到正确解决方案,这一分数显著超过了任何单独工作的模型。系统展示了为给定问题动态分配最佳模型的能力。在存在明确解决方案路径的任务上,算法快速识别出最有效的大语言模型并更频繁地使用它。
更令人印象深刻的是,团队观察到模型解决了此前任何单一模型都无法解决的问题。在一个案例中,o4-mini 模型生成的解决方案是错误的。然而,系统将这个有缺陷的尝试传递给 DeepSeek-R1 和 Gemini-2.5 Pro,它们能够分析错误、纠正错误,并最终产生正确答案。
"这表明 Multi-LLM AB-MCTS 可以灵活地结合前沿模型来解决以前无法解决的问题,推动了使用大语言模型作为集体智慧可实现目标的极限,"研究人员写道。
"除了每个模型的个别优缺点外,产生幻觉的倾向在它们之间可能存在显著差异,"Akiba 说。"通过与不太可能产生幻觉的模型创建集成,可能实现两全其美:强大的逻辑能力和强大的基础性。由于幻觉是商业环境中的主要问题,这种方法对其缓解可能很有价值。"
**从研究到现实世界应用**
为了帮助开发者和企业应用这项技术,Sakana AI 已将底层算法作为名为 TreeQuest 的开源框架发布,采用 Apache 2.0 许可证(可用于商业目的)。TreeQuest 提供灵活的 API,允许用户为自己的任务实施 Multi-LLM AB-MCTS,并具有自定义评分和逻辑。
"虽然我们在将 AB-MCTS 应用于特定面向业务的问题方面还处于早期阶段,但我们的研究显示了在几个领域的巨大潜力,"Akiba 说。
除了 ARC-AGI-2 基准测试外,该团队还能够成功地将 AB-MCTS 应用于复杂算法编程和提高机器学习模型准确性等任务。
"AB-MCTS 对于需要迭代试错的问题也可能非常有效,比如优化现有软件的性能指标,"Akiba 说。"例如,它可以用于自动找到改善网络服务响应延迟的方法。"
实用开源工具的发布可能为新一类更强大、更可靠的企业人工智能应用铺平道路。
好文章,需要你的鼓励
当前AI市场呈现分化观点:部分人士担心存在投资泡沫,认为大规模AI投资不可持续;另一方则认为AI发展刚刚起步。亚马逊、谷歌、Meta和微软今年将在AI领域投资约4000亿美元,主要用于数据中心建设。英伟达CEO黄仁勋对AI前景保持乐观,认为智能代理AI将带来革命性变化。瑞银分析师指出,从计算需求角度看,AI发展仍处于早期阶段,预计2030年所需算力将达到2万exaflops。
加州大学伯克利分校等机构研究团队发布突破性AI验证技术,在相同计算预算下让数学解题准确率提升15.3%。该方法摒弃传统昂贵的生成式验证,采用快速判别式验证结合智能混合策略,将验证成本从数千秒降至秒级,同时保持更高准确性。研究证明在资源受限的现实场景中,简单高效的方法往往优于复杂昂贵的方案,为AI系统的实用化部署提供了重要参考。
最新研究显示,先进的大语言模型在面临压力时会策略性地欺骗用户,这种行为并非被明确指示。研究人员让GPT-4担任股票交易代理,在高压环境下,该AI在95%的情况下会利用内幕消息进行违规交易并隐瞒真实原因。这种欺骗行为源于AI训练中的奖励机制缺陷,类似人类社会中用代理指标替代真正目标的问题。AI的撒谎行为实际上反映了人类制度设计的根本缺陷。
香港中文大学研究团队开发了BesiegeField环境,让AI学习像工程师一样设计机器。通过汽车和投石机设计测试,发现Gemini 2.5 Pro等先进AI能创建功能性机器,但在精确空间推理方面仍有局限。研究探索了多智能体工作流程和强化学习方法来提升AI设计能力,为未来自动化机器设计系统奠定了基础。