Lemony开源动态路由工具可削减85%AI成本

Lemony.ai发布开源工具Cascadeflow,通过动态路由提示到最具成本效益的语言模型来削减AI应用开发成本。该软件采用级联管道,先使用小型廉价模型处理提示,根据质量指标评估结果,不达标则升级到更大模型。初步测试显示85%的提示可用小型模型处理,支持OpenAI、Anthropic等多个模型提供商,仅增加2毫秒延迟。

Lemony.ai公司(Uptime Industries Inc.的运营名称)今日发布了一款开源工具,该工具通过动态路由提示词到最具成本效益的语言模型,可以大幅削减人工智能应用开发成本。

Cascadeflow旨在帮助开发者在不影响质量或性能的前提下降低应用程序接口支出。据Lemony联合创始人兼首席执行官Sascha Buehrle介绍,大多数开发者会为每个查询硬编码大语言模型。"Cascadeflow让开发者运行得更智能,而不是更大规模,通过动态选择每个任务的合适模型来实现这一点。"他说道。

该软件通过级联管道路由每个提示词。它首先使用小型、低成本的模型,然后根据可配置的质量指标(如完整性和正确性)评估结果。如果输出不达标,软件会将提示词升级到更大的模型。这种被称为推测执行的方法,旨在减轻对每个提示词都使用旗舰模型的成本负担。

该软件跟踪各模型和提供商的Token使用情况和成本,提供可配置的预算控制和单次查询支出上限。开发者可以在本地成本文件中定义自己的定价,以适应提供商合同的差异。

Buehrle表示,初步基准测试表明,高达85%的提示词可以使用较小或领域专用的模型进行处理。"你不需要旗舰模型来回答'2加2等于几'这样的问题。"他说道。Lemony的主要业务是提供运行缩放版语言模型的本地边缘设备。

广泛的模型支持

Cascadeflow最初支持OpenAI、Anthropic、Hugging Face、Groq、Together Computer等公司的商业模型和处理器,以及开源的vLLM和Ollama。它还与基于Python的LightLLM集成,可访问约100个额外的语言模型。该软件可在云环境、本地机器或边缘设备上使用。

"你可以在AI应用运行的任何地方运行它,"Buehrle说道。"它只为你的AI堆栈增加两毫秒的延迟。"

该软件可与智能体框架一起部署,兼容模型控制协议,支持批处理、流式传输和各种提供商的缓存优化。它与n8n集成,n8n是一个广泛用于构建智能体工作流的低代码自动化平台。

Buehrle表示,公司选择将Cascadeflow作为开源发布,是为了在成本控制过程中建立社区参与和透明度。"将Lemony的核心作为开源推出是很重要的,"他说道。"建立社区并从使用它的公司那里获得反馈是很重要的。"

Cascadeflow今日开始在GitHub上提供。

Q&A

Q1:Cascadeflow是什么?它能解决什么问题?

A:Cascadeflow是Lemony公司开发的开源工具,通过动态路由提示词到最具成本效益的语言模型来削减AI应用开发成本。它解决了开发者为每个查询都使用昂贵的大语言模型而导致的高成本问题,可以在不影响质量的前提下降低API支出。

Q2:Cascadeflow是如何工作的?

A:Cascadeflow采用级联管道的方式工作。首先使用小型、低成本的模型处理提示词,然后根据完整性和正确性等质量指标评估结果。如果输出不达标,系统会自动将提示词升级到更大更强的模型处理,这种推测执行方法能有效控制成本。

Q3:使用Cascadeflow能节省多少成本?

A:根据Lemony公司的初步基准测试,Cascadeflow最多可以削减85%的AI成本。这是因为高达85%的提示词可以使用较小或领域专用的模型进行处理,而不需要使用昂贵的旗舰模型,从而大幅降低Token使用成本。

来源:SiliconANGLE

0赞

好文章,需要你的鼓励

2025

11/07

08:15

分享

点赞

邮件订阅