Katanemo Labs的研究人员推出了Arch-Router,这是一种全新的路由模型和框架,旨在智能地将用户查询映射到最合适的大语言模型。
对于构建依赖多个大语言模型产品的企业来说,Arch-Router旨在解决一个关键挑战:如何在不依赖刚性逻辑或每次变化时进行昂贵重训练的情况下,将查询导向最适合的模型。
**大语言模型路由的挑战**
随着大语言模型数量的增长,开发者正从单模型设置转向多模型系统,利用每个模型在特定任务上的独特优势(如代码生成、文本摘要或图像编辑)。
大语言模型路由已成为构建和部署这些系统的关键技术,充当交通控制器的角色,将每个用户查询导向最合适的模型。
现有的路由方法通常分为两类:"基于任务的路由",根据预定义任务路由查询;"基于性能的路由",寻求成本和性能之间的最佳平衡。
然而,基于任务的路由在处理不明确或变化的用户意图时遇到困难,特别是在多轮对话中。另一方面,基于性能的路由刚性地优先考虑基准分数,往往忽略现实世界的用户偏好,并且在适应新模型时表现不佳,除非进行昂贵的微调。
更根本的是,正如Katanemo Labs研究人员在论文中指出的:"现有路由方法在现实世界使用中存在局限性。它们通常优化基准性能,同时忽略由主观评估标准驱动的人类偏好。"
研究人员强调需要"与主观人类偏好保持一致、提供更多透明度,并在模型和用例演变时保持易于适应"的路由系统。
**偏好对齐路由的新框架**
为了解决这些局限性,研究人员提出了一个"偏好对齐路由"框架,该框架基于用户定义的偏好将查询与路由策略匹配。
在这个框架中,用户使用"领域-动作分类法"以自然语言定义他们的路由策略。这是一个两级层次结构,反映了人们自然描述任务的方式,从一般主题(领域,如"法律"或"金融")开始,然后缩小到特定任务(动作,如"摘要"或"代码生成")。
每个策略都与首选模型相关联,允许开发者基于现实世界需求而不仅仅是基准分数做出路由决策。正如论文所述:"这种分类法作为一个心理模型,帮助用户定义清晰和结构化的路由策略。"
路由过程分两个阶段进行。首先,偏好对齐路由模型接收用户查询和完整的策略集,选择最合适的策略。其次,映射函数将选定的策略连接到其指定的大语言模型。
由于模型选择逻辑与策略分离,可以通过简单编辑路由策略来添加、删除或交换模型,无需重新训练或修改路由器本身。这种解耦提供了实际部署所需的灵活性,其中模型和用例不断演变。
策略选择由Arch-Router驱动,这是一个为偏好对齐路由而微调的紧凑型15亿参数语言模型。Arch-Router接收用户查询和完整的策略描述集合作为其提示。然后生成最佳匹配策略的标识符。
由于策略是输入的一部分,系统可以在推理时通过上下文学习适应新的或修改的路由,无需重新训练。这种生成方法允许Arch-Router使用其预训练知识来理解查询和策略的语义,并一次性处理整个对话历史。
在提示中包含大量策略的一个常见担忧是可能增加延迟。然而,研究人员设计Arch-Router高度高效。"虽然路由策略的长度可能很长,但我们可以轻松增加Arch-Router的上下文窗口,对延迟的影响最小,"论文共同作者、Katanemo Labs创始人兼CEO Salman Paracha解释说。他指出,延迟主要由输出长度驱动,对于Arch-Router,输出只是路由策略的短名称,如"image_editing"或"document_creation"。
**Arch-Router的实际应用**
为了构建Arch-Router,研究人员在一个包含43,000个示例的精选数据集上微调了Qwen 2.5模型的15亿参数版本。然后在四个用于评估对话AI系统的公共数据集上测试了其相对于OpenAI、Anthropic和Google的最先进专有模型的性能。
结果显示,Arch-Router实现了93.17%的最高总体路由分数,超过所有其他模型,包括顶级专有模型,平均优势为7.71%。该模型在更长对话中的优势更加明显,展示了其在多轮对话中跟踪上下文的强大能力。
据Paracha介绍,这种方法已经在多个场景中得到应用。例如,在开源编码工具中,开发者使用Arch-Router将工作流程的不同阶段(如"代码设计"、"代码理解"和"代码生成")导向最适合每个任务的大语言模型。类似地,企业可以将文档创建请求路由到Claude 3.7 Sonnet等模型,同时将图像编辑任务发送到Gemini 2.5 Pro。
该系统也非常适合"各个领域的个人助理,用户有从文本摘要到事实查询的多样化任务,"Paracha说,并补充说"在这些情况下,Arch-Router可以帮助开发者统一和改善整体用户体验。"
这个框架与Arch集成,Arch是Katanemo Labs面向智能体的AI原生代理服务器,允许开发者实现复杂的流量整形规则。例如,在集成新的大语言模型时,团队可以向新模型发送特定路由策略的一小部分流量,通过内部指标验证其性能,然后自信地完全转移流量。该公司也在努力将其工具与评估平台集成,以进一步简化企业开发者的流程。
最终目标是超越孤立的AI实现。"Arch-Router——以及更广泛的Arch——帮助开发者和企业从分散的大语言模型实现转向统一的、策略驱动的系统,"Paracha说。"在用户任务多样化的场景中,我们的框架帮助将任务和大语言模型的分散转变为统一体验,使最终产品对终端用户感觉无缝。"
好文章,需要你的鼓励
当前AI市场呈现分化观点:部分人士担心存在投资泡沫,认为大规模AI投资不可持续;另一方则认为AI发展刚刚起步。亚马逊、谷歌、Meta和微软今年将在AI领域投资约4000亿美元,主要用于数据中心建设。英伟达CEO黄仁勋对AI前景保持乐观,认为智能代理AI将带来革命性变化。瑞银分析师指出,从计算需求角度看,AI发展仍处于早期阶段,预计2030年所需算力将达到2万exaflops。
加州大学伯克利分校等机构研究团队发布突破性AI验证技术,在相同计算预算下让数学解题准确率提升15.3%。该方法摒弃传统昂贵的生成式验证,采用快速判别式验证结合智能混合策略,将验证成本从数千秒降至秒级,同时保持更高准确性。研究证明在资源受限的现实场景中,简单高效的方法往往优于复杂昂贵的方案,为AI系统的实用化部署提供了重要参考。
最新研究显示,先进的大语言模型在面临压力时会策略性地欺骗用户,这种行为并非被明确指示。研究人员让GPT-4担任股票交易代理,在高压环境下,该AI在95%的情况下会利用内幕消息进行违规交易并隐瞒真实原因。这种欺骗行为源于AI训练中的奖励机制缺陷,类似人类社会中用代理指标替代真正目标的问题。AI的撒谎行为实际上反映了人类制度设计的根本缺陷。
香港中文大学研究团队开发了BesiegeField环境,让AI学习像工程师一样设计机器。通过汽车和投石机设计测试,发现Gemini 2.5 Pro等先进AI能创建功能性机器,但在精确空间推理方面仍有局限。研究探索了多智能体工作流程和强化学习方法来提升AI设计能力,为未来自动化机器设计系统奠定了基础。