Sakana AI 推出 TreeQuest：多模型团队表现超越单一大语言模型30%

日本AI实验室Sakana AI推出Multi-LLM AB-MCTS技术，让多个大语言模型协作完成单一任务，形成AI智能体"梦之队"。该方法使模型能够试错并结合各自优势，解决单一模型无法处理的复杂问题。在ARC-AGI-2基准测试中，模型组合正确解决了超过30%的问题，显著优于单独工作的任何模型。公司已将核心算法开源为TreeQuest框架，为企业开发更强大可靠的AI应用铺平道路。

日本人工智能实验室 Sakana AI 推出了一项新技术，允许多个大语言模型在单一任务上协作，有效地创建了一个人工智能智能体的"梦之队"。这种名为 Multi-LLM AB-MCTS 的方法使模型能够进行试错并结合各自独特的优势，解决对任何单个模型来说都过于复杂的问题。

对于企业而言，这种方法提供了开发更强大、更可靠的人工智能系统的途径。企业不必局限于单一供应商或模型，可以动态利用不同前沿模型的最佳特性，为任务的不同部分分配合适的人工智能，从而获得卓越的结果。

**集体智慧的力量**

前沿人工智能模型正在快速发展。然而，每个模型都有其源于独特训练数据和架构的不同优势和劣势。一个模型可能在编程方面表现出色，而另一个可能在创意写作方面更胜一筹。Sakana AI 的研究人员认为，这些差异不是缺陷，而是特色。

"我们认为这些偏见和不同的能力不是限制，而是创造集体智慧的宝贵资源，"研究人员在博客文章中表示。他们相信，正如人类最伟大的成就来自多元化团队一样，人工智能系统也可以通过协作取得更大成就。"通过汇集智慧，人工智能系统可以解决任何单一模型都无法克服的问题。"

**在推理时间进行更深入的思考**

Sakana AI 的新算法是一种"推理时扩展"技术（也称为"测试时扩展"），这是过去一年中非常热门的研究领域。虽然人工智能领域的大部分关注点都集中在"训练时扩展"（使模型更大并在更大的数据集上训练），但推理时扩展通过在模型已经训练完成后分配更多计算资源来提高性能。

一种常见方法是使用强化学习来提示模型生成更长、更详细的思维链序列，如在 OpenAI o3 和 DeepSeek-R1 等流行模型中所见。另一种更简单的方法是重复采样，即对模型多次给出相同提示以生成各种潜在解决方案，类似于头脑风暴会议。Sakana AI 的工作结合并推进了这些想法。

"我们的框架提供了更智能、更具策略性的 Best-of-N（即重复采样）版本，"Sakana AI 研究科学家、论文共同作者 Takuya Akiba 告诉 VentureBeat。"它通过强化学习补充了长思维链等推理技术。通过动态选择搜索策略和合适的大语言模型，这种方法在有限的大语言模型调用次数内最大化性能，在复杂任务上提供更好的结果。"

**自适应分支搜索的工作原理**

新方法的核心是一个名为自适应分支蒙特卡洛树搜索（AB-MCTS）的算法。它使大语言模型能够通过智能地平衡两种不同的搜索策略来有效地进行试错："深度搜索"和"广度搜索"。深度搜索涉及采用一个有前景的答案并反复改进它，而广度搜索意味着从头开始生成全新的解决方案。AB-MCTS 结合了这些方法，允许系统改进一个好想法，但如果遇到死胡同或发现另一个有前景的方向，也可以转向尝试新的东西。

为了实现这一点，系统使用蒙特卡洛树搜索（MCTS），这是一种决策算法，因被 DeepMind 的 AlphaGo 使用而闻名。在每一步，AB-MCTS 使用概率模型来决定改进现有解决方案还是生成新解决方案在策略上更有利。

研究人员通过 Multi-LLM AB-MCTS 进一步推进了这项技术，它不仅决定"做什么"（改进vs生成），还决定"哪个"大语言模型应该来做。在任务开始时，系统不知道哪个模型最适合这个问题。它首先尝试可用大语言模型的平衡组合，随着进展，学习哪些模型更有效，随着时间的推移将更多工作负载分配给它们。

**测试人工智能"梦之队"**

研究人员在 ARC-AGI-2 基准测试上测试了他们的 Multi-LLM AB-MCTS 系统。ARC（抽象和推理语料库）旨在测试解决新颖视觉推理问题的类人能力，使其对人工智能来说极其困难。

该团队使用了包括 o4-mini、Gemini 2.5 Pro 和 DeepSeek-R1 在内的前沿模型组合。

模型集合能够为 120 个测试问题中超过 30% 的问题找到正确解决方案，这一分数显著超过了任何单独工作的模型。系统展示了为给定问题动态分配最佳模型的能力。在存在明确解决方案路径的任务上，算法快速识别出最有效的大语言模型并更频繁地使用它。

更令人印象深刻的是，团队观察到模型解决了此前任何单一模型都无法解决的问题。在一个案例中，o4-mini 模型生成的解决方案是错误的。然而，系统将这个有缺陷的尝试传递给 DeepSeek-R1 和 Gemini-2.5 Pro，它们能够分析错误、纠正错误，并最终产生正确答案。

"这表明 Multi-LLM AB-MCTS 可以灵活地结合前沿模型来解决以前无法解决的问题，推动了使用大语言模型作为集体智慧可实现目标的极限，"研究人员写道。

"除了每个模型的个别优缺点外，产生幻觉的倾向在它们之间可能存在显著差异，"Akiba 说。"通过与不太可能产生幻觉的模型创建集成，可能实现两全其美：强大的逻辑能力和强大的基础性。由于幻觉是商业环境中的主要问题，这种方法对其缓解可能很有价值。"

**从研究到现实世界应用**

为了帮助开发者和企业应用这项技术，Sakana AI 已将底层算法作为名为 TreeQuest 的开源框架发布，采用 Apache 2.0 许可证（可用于商业目的）。TreeQuest 提供灵活的 API，允许用户为自己的任务实施 Multi-LLM AB-MCTS，并具有自定义评分和逻辑。

"虽然我们在将 AB-MCTS 应用于特定面向业务的问题方面还处于早期阶段，但我们的研究显示了在几个领域的巨大潜力，"Akiba 说。

除了 ARC-AGI-2 基准测试外，该团队还能够成功地将 AB-MCTS 应用于复杂算法编程和提高机器学习模型准确性等任务。

"AB-MCTS 对于需要迭代试错的问题也可能非常有效，比如优化现有软件的性能指标，"Akiba 说。"例如，它可以用于自动找到改善网络服务响应延迟的方法。"

实用开源工具的发布可能为新一类更强大、更可靠的企业人工智能应用铺平道路。

来源：VentureBeat

0赞

好文章，需要你的鼓励

Sakana AI 推出 TreeQuest：多模型团队表现超越单一大语言模型30%

来源：VentureBeat

2025

07/04

22:08

分享

点赞

数智惠闽企，展车进福州｜华为坤灵中国行2025·福建站成功举办，推动闽企智能化发展新征程

AI时代的影像实验：记录你眼中的“变化”

大象转身，亦或重塑大象：Unity团结引擎的“中国本土”进化

无万卡，不VLA：元戎启行与阿里云的“想法”和“解法”

AI爬虫让“价格战”变成“算法战”，利润正在被看不见的流量吞噬 AI 爬虫程序流量在短短一年内暴增 300%

做好可持续数字化转型的“必答题”

SUSE Linux Enterprise Server (SLES) 16全新发布：AI赋能，智领企业管理

SAP商业AI获乌镇峰会精品案例奖，助推中国企业实现确定性增长

专访｜Cloudera致力于打造AI时代的企业级“数据操作系统”

专访｜AI浪潮下的“卖水人”：Cloudera解构企业AI的“源”与“治”

SAP TechEd柏林观察：企业AI如何发挥飞轮效应?

CIO策略观察——软件测试：从传统困局到 AI 无人测试转型

Wonder Dynamics联合创始人加入2025年TechCrunch Disrupt AI舞台

全球风投二季度复苏迹象显现，AI交易主导资本流向

什么是Perplexity？这款AI聊天机器人全方位解读

英超联赛推出AI工具提升球迷体验

Lovable计划融资1.5亿美元，估值达20亿美元

多智能体系统如何革新数据工作流程

微软推出业务级AI微调服务助力企业价值创造

CEO预言白领替代潮：白领零工经济时代来临

AI与E Ink技术也无法让触屏触控板成为好创意

Wonder Dynamics联合创始人将出席2025年TechCrunch Disrupt大会AI舞台

如果您非常迫切的想了解IT领域最新产品与技术信息，那么订阅至顶网技术邮件将是您的最佳途径之一

中国移动呼和浩特数据中心：只有高效存力先行，AI才能跑出全力

从“支撑工具”到“智能中枢”，AI原生ERP进化

阿里要用AI将云计算重做一遍

PEC 2025 AI创新者大会

关注官方公众号

关注官方微博

关注官方喜马拉雅

友情链接

业界热点: