Lemony.ai公司(Uptime Industries Inc.的运营名称)今日发布了一款开源工具,该工具通过动态路由提示词到最具成本效益的语言模型,可以大幅削减人工智能应用开发成本。
Cascadeflow旨在帮助开发者在不影响质量或性能的前提下降低应用程序接口支出。据Lemony联合创始人兼首席执行官Sascha Buehrle介绍,大多数开发者会为每个查询硬编码大语言模型。"Cascadeflow让开发者运行得更智能,而不是更大规模,通过动态选择每个任务的合适模型来实现这一点。"他说道。
该软件通过级联管道路由每个提示词。它首先使用小型、低成本的模型,然后根据可配置的质量指标(如完整性和正确性)评估结果。如果输出不达标,软件会将提示词升级到更大的模型。这种被称为推测执行的方法,旨在减轻对每个提示词都使用旗舰模型的成本负担。
该软件跟踪各模型和提供商的Token使用情况和成本,提供可配置的预算控制和单次查询支出上限。开发者可以在本地成本文件中定义自己的定价,以适应提供商合同的差异。
Buehrle表示,初步基准测试表明,高达85%的提示词可以使用较小或领域专用的模型进行处理。"你不需要旗舰模型来回答'2加2等于几'这样的问题。"他说道。Lemony的主要业务是提供运行缩放版语言模型的本地边缘设备。
广泛的模型支持
Cascadeflow最初支持OpenAI、Anthropic、Hugging Face、Groq、Together Computer等公司的商业模型和处理器,以及开源的vLLM和Ollama。它还与基于Python的LightLLM集成,可访问约100个额外的语言模型。该软件可在云环境、本地机器或边缘设备上使用。
"你可以在AI应用运行的任何地方运行它,"Buehrle说道。"它只为你的AI堆栈增加两毫秒的延迟。"
该软件可与智能体框架一起部署,兼容模型控制协议,支持批处理、流式传输和各种提供商的缓存优化。它与n8n集成,n8n是一个广泛用于构建智能体工作流的低代码自动化平台。
Buehrle表示,公司选择将Cascadeflow作为开源发布,是为了在成本控制过程中建立社区参与和透明度。"将Lemony的核心作为开源推出是很重要的,"他说道。"建立社区并从使用它的公司那里获得反馈是很重要的。"
Cascadeflow今日开始在GitHub上提供。
Q&A
Q1:Cascadeflow是什么?它能解决什么问题?
A:Cascadeflow是Lemony公司开发的开源工具,通过动态路由提示词到最具成本效益的语言模型来削减AI应用开发成本。它解决了开发者为每个查询都使用昂贵的大语言模型而导致的高成本问题,可以在不影响质量的前提下降低API支出。
Q2:Cascadeflow是如何工作的?
A:Cascadeflow采用级联管道的方式工作。首先使用小型、低成本的模型处理提示词,然后根据完整性和正确性等质量指标评估结果。如果输出不达标,系统会自动将提示词升级到更大更强的模型处理,这种推测执行方法能有效控制成本。
Q3:使用Cascadeflow能节省多少成本?
A:根据Lemony公司的初步基准测试,Cascadeflow最多可以削减85%的AI成本。这是因为高达85%的提示词可以使用较小或领域专用的模型进行处理,而不需要使用昂贵的旗舰模型,从而大幅降低Token使用成本。
好文章,需要你的鼓励
联想推出新一代NVMe存储解决方案DE6600系列,包含全闪存DE6600F和混合存储DE6600H两款型号。该系列产品延迟低于100微秒,支持多种连接协议,2U机架可容纳24块NVMe驱动器。容量可从367TB扩展至1.798PiB全闪存或7.741PiB混合配置,适用于AI、高性能计算、实时分析等场景,并配备双活控制器和XClarity统一管理平台。
Allen AI研究所联合多家顶尖机构推出SAGE智能视频分析系统,首次实现类人化的"任意时长推理"能力。该系统能根据问题复杂程度灵活调整分析策略,配备六种智能工具进行协同分析,在处理10分钟以上视频时准确率提升8.2%。研究团队创建了包含1744个真实娱乐视频问题的SAGE-Bench评估平台,并采用创新的AI生成训练数据方法,为视频AI技术的实际应用开辟了新路径。
两位创始人分享在医疗和殡葬等高度监管行业创业的经验。Enspectra Health历经近十年获得FDA认证推出皮肤成像设备,Earth Funeral则提供人体堆肥服务作为火化和土葬的替代方案。他们探讨了如何在等待监管审批期间进行产品迭代、如何规划资金周期,以及如何在投资者视为禁忌的领域获得风险投资。
中科院团队首次系统评估了AI视觉模型在文本压缩环境下的理解能力,发现虽然AI能准确识别压缩图像中的文字,但在理解深层含义、建立关联推理方面表现不佳。研究通过VTCBench测试系统揭示了AI存在"位置偏差"等问题,为视觉文本压缩技术的改进指明方向。