Lemony开源动态路由工具可削减85%AI成本

Lemony.ai发布开源工具Cascadeflow，通过动态路由提示到最具成本效益的语言模型来削减AI应用开发成本。该软件采用级联管道，先使用小型廉价模型处理提示，根据质量指标评估结果，不达标则升级到更大模型。初步测试显示85%的提示可用小型模型处理，支持OpenAI、Anthropic等多个模型提供商，仅增加2毫秒延迟。

Lemony.ai公司（Uptime Industries Inc.的运营名称）今日发布了一款开源工具，该工具通过动态路由提示词到最具成本效益的语言模型，可以大幅削减人工智能应用开发成本。

Cascadeflow旨在帮助开发者在不影响质量或性能的前提下降低应用程序接口支出。据Lemony联合创始人兼首席执行官Sascha Buehrle介绍，大多数开发者会为每个查询硬编码大语言模型。"Cascadeflow让开发者运行得更智能，而不是更大规模，通过动态选择每个任务的合适模型来实现这一点。"他说道。

该软件通过级联管道路由每个提示词。它首先使用小型、低成本的模型，然后根据可配置的质量指标（如完整性和正确性）评估结果。如果输出不达标，软件会将提示词升级到更大的模型。这种被称为推测执行的方法，旨在减轻对每个提示词都使用旗舰模型的成本负担。

该软件跟踪各模型和提供商的Token使用情况和成本，提供可配置的预算控制和单次查询支出上限。开发者可以在本地成本文件中定义自己的定价，以适应提供商合同的差异。

Buehrle表示，初步基准测试表明，高达85%的提示词可以使用较小或领域专用的模型进行处理。"你不需要旗舰模型来回答'2加2等于几'这样的问题。"他说道。Lemony的主要业务是提供运行缩放版语言模型的本地边缘设备。

广泛的模型支持

Cascadeflow最初支持OpenAI、Anthropic、Hugging Face、Groq、Together Computer等公司的商业模型和处理器，以及开源的vLLM和Ollama。它还与基于Python的LightLLM集成，可访问约100个额外的语言模型。该软件可在云环境、本地机器或边缘设备上使用。

"你可以在AI应用运行的任何地方运行它，"Buehrle说道。"它只为你的AI堆栈增加两毫秒的延迟。"

该软件可与智能体框架一起部署，兼容模型控制协议，支持批处理、流式传输和各种提供商的缓存优化。它与n8n集成，n8n是一个广泛用于构建智能体工作流的低代码自动化平台。

Buehrle表示，公司选择将Cascadeflow作为开源发布，是为了在成本控制过程中建立社区参与和透明度。"将Lemony的核心作为开源推出是很重要的，"他说道。"建立社区并从使用它的公司那里获得反馈是很重要的。"

Cascadeflow今日开始在GitHub上提供。

Q&A

Q1：Cascadeflow是什么？它能解决什么问题？

A：Cascadeflow是Lemony公司开发的开源工具，通过动态路由提示词到最具成本效益的语言模型来削减AI应用开发成本。它解决了开发者为每个查询都使用昂贵的大语言模型而导致的高成本问题，可以在不影响质量的前提下降低API支出。

Q2：Cascadeflow是如何工作的？

A：Cascadeflow采用级联管道的方式工作。首先使用小型、低成本的模型处理提示词，然后根据完整性和正确性等质量指标评估结果。如果输出不达标，系统会自动将提示词升级到更大更强的模型处理，这种推测执行方法能有效控制成本。

Q3：使用Cascadeflow能节省多少成本？

A：根据Lemony公司的初步基准测试，Cascadeflow最多可以削减85%的AI成本。这是因为高达85%的提示词可以使用较小或领域专用的模型进行处理，而不需要使用昂贵的旗舰模型，从而大幅降低Token使用成本。

来源：SiliconANGLE

0赞

好文章，需要你的鼓励

Lemony开源动态路由工具可削减85%AI成本

来源：SiliconANGLE

2025

11/07

08:15

分享

点赞

五位自动驾驶产业链大咖畅谈：未来运输的模式、通路与破壁

智能数据将开启AI赋能设计的新纪元

OpenAI 科学家：为什么大语言模型会产生幻觉？

从太空到地面：Qorvo波束成形芯片助力卫星通信发展

豆包语音对话功能更新，能讲4种地道方言，具备思考能力

联想刘军获评“年度科技领军人物” 前瞻布局和实践打造AI落地范本

贝索斯"普罗米修斯项目"收购AI智能体初创公司

全新Mac浏览器Orion发布：主打速度与隐私保护

Opera AI浏览器推出1分钟深度研究模式和Gemini 3 Pro集成

马斯克xAI计划在Colossus数据中心旁建设小型太阳能发电场

微软联手思科那发布零信任光网络架构框架

国内唯一，阿里千问斩获NeurIPS 2025最佳论文奖

Vast Data与CoreWeave深化合作，强化AI数据服务基础设施

Google推出Ironwood TPU和Axion实例满足AI推理需求激增

谷歌Ironwood TPU对英伟达构成超预期威胁

Laude研究所宣布首批"弹弓"AI资助计划获奖名单

生成式AI是否增强左脑削弱右脑真相探究

微软推出 Elevate 计划助力阿联酋AI雄心

思科升级企业网络架构应对AI时代需求

蚂蚁数科Agentar入选互联网之光博览会十大首发成果

谷歌地图接入Gemini AI 打造全知智能助手

微软构建虚假市场测试AI智能体，结果暴露意外缺陷

如果您非常迫切的想了解IT领域最新产品与技术信息，那么订阅至顶网技术邮件将是您的最佳途径之一

电子竞技瞬息万变，Team Liquid的“数据+AI”制胜秘籍

中国移动呼和浩特数据中心：只有高效存力先行，AI才能跑出全力

从“支撑工具”到“智能中枢”，AI原生ERP进化

阿里要用AI将云计算重做一遍

关注官方公众号

关注官方微博

关注官方喜马拉雅

友情链接

业界热点: