Lemony.ai公司(Uptime Industries Inc.的运营名称)今日发布了一款开源工具,该工具通过动态路由提示词到最具成本效益的语言模型,可以大幅削减人工智能应用开发成本。
Cascadeflow旨在帮助开发者在不影响质量或性能的前提下降低应用程序接口支出。据Lemony联合创始人兼首席执行官Sascha Buehrle介绍,大多数开发者会为每个查询硬编码大语言模型。"Cascadeflow让开发者运行得更智能,而不是更大规模,通过动态选择每个任务的合适模型来实现这一点。"他说道。
该软件通过级联管道路由每个提示词。它首先使用小型、低成本的模型,然后根据可配置的质量指标(如完整性和正确性)评估结果。如果输出不达标,软件会将提示词升级到更大的模型。这种被称为推测执行的方法,旨在减轻对每个提示词都使用旗舰模型的成本负担。
该软件跟踪各模型和提供商的Token使用情况和成本,提供可配置的预算控制和单次查询支出上限。开发者可以在本地成本文件中定义自己的定价,以适应提供商合同的差异。
Buehrle表示,初步基准测试表明,高达85%的提示词可以使用较小或领域专用的模型进行处理。"你不需要旗舰模型来回答'2加2等于几'这样的问题。"他说道。Lemony的主要业务是提供运行缩放版语言模型的本地边缘设备。
广泛的模型支持
Cascadeflow最初支持OpenAI、Anthropic、Hugging Face、Groq、Together Computer等公司的商业模型和处理器,以及开源的vLLM和Ollama。它还与基于Python的LightLLM集成,可访问约100个额外的语言模型。该软件可在云环境、本地机器或边缘设备上使用。
"你可以在AI应用运行的任何地方运行它,"Buehrle说道。"它只为你的AI堆栈增加两毫秒的延迟。"
该软件可与智能体框架一起部署,兼容模型控制协议,支持批处理、流式传输和各种提供商的缓存优化。它与n8n集成,n8n是一个广泛用于构建智能体工作流的低代码自动化平台。
Buehrle表示,公司选择将Cascadeflow作为开源发布,是为了在成本控制过程中建立社区参与和透明度。"将Lemony的核心作为开源推出是很重要的,"他说道。"建立社区并从使用它的公司那里获得反馈是很重要的。"
Cascadeflow今日开始在GitHub上提供。
Q&A
Q1:Cascadeflow是什么?它能解决什么问题?
A:Cascadeflow是Lemony公司开发的开源工具,通过动态路由提示词到最具成本效益的语言模型来削减AI应用开发成本。它解决了开发者为每个查询都使用昂贵的大语言模型而导致的高成本问题,可以在不影响质量的前提下降低API支出。
Q2:Cascadeflow是如何工作的?
A:Cascadeflow采用级联管道的方式工作。首先使用小型、低成本的模型处理提示词,然后根据完整性和正确性等质量指标评估结果。如果输出不达标,系统会自动将提示词升级到更大更强的模型处理,这种推测执行方法能有效控制成本。
Q3:使用Cascadeflow能节省多少成本?
A:根据Lemony公司的初步基准测试,Cascadeflow最多可以削减85%的AI成本。这是因为高达85%的提示词可以使用较小或领域专用的模型进行处理,而不需要使用昂贵的旗舰模型,从而大幅降低Token使用成本。
好文章,需要你的鼓励
微软正式确认配置管理器将转为年度发布模式,并将Intune作为主要创新重点。该变化将于2026年秋季生效,在此之前还有几个版本发布。微软表示此举是为了与Windows客户端安全和稳定性节奏保持一致,优先确保安全可靠的用户体验。配置管理器将专注于安全性、稳定性和长期支持,而所有新功能创新都将在云端的Intune中进行。
这项由圣母大学和IBM研究院联合开展的研究,开发出了名为DeepEvolve的AI科学助手系统,能够像人类科学家一样进行深度文献研究并将创新想法转化为可执行的算法程序。该系统突破了传统AI要么只能改进算法但缺乏创新、要么只能提出想法但无法实现的局限,在化学、生物学、数学等九个科学领域的测试中都实现了显著的算法性能提升,为AI辅助科学发现开辟了新的道路。
人工智能初创公司aiOla推出基于流匹配训练技术的语音AI模型Drax,挑战OpenAI和阿里巴巴等巨头。该模型重新定义语音算法训练方式,能在嘈杂环境中准确识别语音,兼顾速度与准确性。相比OpenAI的Whisper和阿里巴巴Qwen2,Drax采用并行流处理技术,速度提升32倍,词错误率仅7.4%。该模型已在GitHub开源,提供三种规模版本。
卡内基梅隆大学研究团队通过3331次大规模实验,系统揭示了代码训练如何提升AI推理能力。研究发现,代码的结构特性比语义内容更重要,适当的抽象形式(如伪代码)可以达到与原始代码相同的效果。不同编程语言产生差异化影响:低抽象语言有利于数学推理,Python更适合自然语言任务。这些发现为AI训练数据的科学化设计提供了重要指导。