Snowflake 声称突破性技术可将 AI 推理时间削减超过 50%

雪花公司宣布将一项名为 SwiftKV 的优化技术集成到其托管的大型语言模型中。这项技术通过重复利用早期层的隐藏状态信息，避免重复计算后续层的键值缓存，从而显著提高推理效率。据称，该技术可将 LLM 推理吞吐量提高 50%，并将某些开源模型的推理成本降低高达 75%。这一突破有望大幅提升 AI 应用的性能和效率。

Snowflake Inc. 今天宣布，它正在将一项技术整合到其托管的大语言模型中，据称这项技术可以显著降低人工智能推理的成本和时间。AI 推理是指使用经过训练的模型基于新的输入数据进行预测或生成输出。

这项名为 SwiftKV 的技术是由 Snowflake AI Research 开发并开源的大语言模型优化技术。它通过复用早期层的隐藏状态信息来提高推理过程的效率，从而避免重复计算后续层的键值缓存。

键值缓存就像语言模型的记忆快捷方式。它们存储输入文本的重要信息，这样模型在生成或处理更多文本时就不必每次都重新计算。这使得模型运行更快、更高效。

Snowflake 表示，与不使用 SwiftKV 相比，这项技术可以提高大语言模型推理吞吐量 50%，并将开源的 Llama 3.3 70B 和 Llama 3.1 405B 模型的推理成本降低了高达 75%。

该公司最初将这项技术与虚拟大语言模型（一种涵盖端到端推理的类似技术）集成，并在这两个 Llama 模型中提供。同样的优化也将添加到 Snowflake Cortex AI 中的其他模型系列中。Snowflake Cortex AI 是 Snowflake 数据云平台的一个功能，使企业能够直接在 Snowflake 中构建、部署和扩展 AI 和机器学习模型。不过，Snowflake 没有具体说明支持其他模型的时间表。

通过避免重复计算，SwiftKV 减少了内存使用和计算开销，实现了更快速和更高效的解码，特别是在实时 AI 应用中的自回归任务。这些任务涉及一次生成一个 token（一个词或词的一部分），每个词都是基于之前生成的词来预测的。这个过程通常用于聊天机器人、实时翻译和文本生成等对速度要求较高的应用中。

该公司表示，SwiftKV 的性能提升建立在大部分计算资源在输入或提示阶段被消耗的假设之上。许多业务任务使用长问题并生成短答案，这意味着大部分计算能力都用于解释提示。Snowflake 在其工程博客上发布的分布图显示，典型的 Snowflake 客户工作负载中输入 token 是输出 token 的 10 倍。

Snowflake 的 AI 研究团队负责人兼杰出软件工程师 Yuxiong He 表示："SwiftKV 不区分输入和输出。当我们启用 SwiftKV 时，模型重新布线同时发生在输入处理和输出生成过程中。我们仅在输入处理（也就是预填充计算）上实现计算减少。"

SwiftKV 通过重用已完成的工作而不是重复相同的计算来节省时间，将额外步骤减少一半，同时保持准确性的最小损失。它还使用了一种称为"自蒸馏"的技巧来确保记住所需的一切，因此答案质量不会改变。在基准测试中，Snowflake 表示准确率下降不到一个百分点。

He 表示："两者之间存在很小的质量差距，但如果客户特别关注这一领域，他们可以选择使用 Cortex AI 中的基础 Llama 模型。"

Snowflake 表示，这项技术能够在多种用例中实现性能优化。它提高了非结构化文本处理任务（如摘要、翻译和情感分析）的吞吐量。在对延迟敏感的场景中，如聊天机器人或 AI 副驾驶，SwiftKV 将生成首个 token 的时间（即模型生成并返回第一个输出所需的时间）减少了高达 50%。

来源：SiliconANGLE

0赞

好文章，需要你的鼓励

Snowflake 声称突破性技术可将 AI 推理时间削减超过 50%

来源：SiliconANGLE

2025

01/20

16:39

分享

点赞

情感AI的十字路口：从马斯克的虚拟伴侣到腾讯的共情革命

CoDesign 2025国际研讨会在大阪召开 共探高性能计算与AI融合新路径

自写互联网：Dfinity的Caffeine AI是否为应用开发者敲响警钟

Meta利用AI创造低碳混凝土并用于数据中心地板浇筑

Slack宣称其AI能够理解公司的专业术语和行话

Adobe新AI工具将搞怪噪音转换成逼真音效

AI是新的Android恶意软件吗？手机厂商争夺用户注意力的战争

NetBox Labs获得3500万美元融资推动基础设施运营现代化

边缘计算趋势：采用现状、挑战与未来展望

Liqid发布支持CXL 2.0内存池的可组合GPU服务器

Uber携手Lucid和Nuro部署2万辆自动驾驶出租车

Mistral的Le Chat聊天机器人推出"深度研究"模式，生产力大幅提升

最热门的 AI 模型：它们的功能和使用方法

这款古怪的 AI 智能手机可以创建你的数字分身

Faireez 获 750 万美元融资，为租赁市场提供 AI 驱动的酒店式管家服务

Broadcom 大获全胜：70% 大型 VMware 客户购买其最全面解决方案

Peer 获得1050万美元元宇宙引擎投资，推出3D个人星球功能

获 3000 万美元融资，Crogl 发布面向安全分析师的全新 AI "钢铁侠战衣"

Turing 获得 1.11 亿美元融资，估值达到 22 亿美元，为 OpenAI 等大语言模型公司提供关键代码支持

Tavus 推出系列 AI 模型，实现实时人脸交互技术突破

Welevel 获得 570 万美元融资，革新程序化游戏开发

AI 驱动的卓越运营：企业如何通过人人可及的流程智能提升成功

如果您非常迫切的想了解IT领域最新产品与技术信息，那么订阅至顶网技术邮件将是您的最佳途径之一

AWS re:Inforce：费城这天不只拼进球，还拼生成式AI安全

在欧洲之门马德里，我们再次见证了SAP激活企业增长的“飞轮”

IEEE专家委员胡凝：消解AI幻觉“阴影”，洞见“超级个体”价值锚点

生成式AI催生新物种，SaaS CRM掀起下半场变革战

关注官方公众号

关注官方微博

关注官方喜马拉雅

友情链接

业界热点:

CoDesign 2025国际研讨会在大阪召开共探高性能计算与AI融合新路径