Snowflake Inc. 今天宣布,它正在将一项技术整合到其托管的大语言模型中,据称这项技术可以显著降低人工智能推理的成本和时间。AI 推理是指使用经过训练的模型基于新的输入数据进行预测或生成输出。
这项名为 SwiftKV 的技术是由 Snowflake AI Research 开发并开源的大语言模型优化技术。它通过复用早期层的隐藏状态信息来提高推理过程的效率,从而避免重复计算后续层的键值缓存。
键值缓存就像语言模型的记忆快捷方式。它们存储输入文本的重要信息,这样模型在生成或处理更多文本时就不必每次都重新计算。这使得模型运行更快、更高效。
Snowflake 表示,与不使用 SwiftKV 相比,这项技术可以提高大语言模型推理吞吐量 50%,并将开源的 Llama 3.3 70B 和 Llama 3.1 405B 模型的推理成本降低了高达 75%。
该公司最初将这项技术与虚拟大语言模型(一种涵盖端到端推理的类似技术)集成,并在这两个 Llama 模型中提供。同样的优化也将添加到 Snowflake Cortex AI 中的其他模型系列中。Snowflake Cortex AI 是 Snowflake 数据云平台的一个功能,使企业能够直接在 Snowflake 中构建、部署和扩展 AI 和机器学习模型。不过,Snowflake 没有具体说明支持其他模型的时间表。
通过避免重复计算,SwiftKV 减少了内存使用和计算开销,实现了更快速和更高效的解码,特别是在实时 AI 应用中的自回归任务。这些任务涉及一次生成一个 token(一个词或词的一部分),每个词都是基于之前生成的词来预测的。这个过程通常用于聊天机器人、实时翻译和文本生成等对速度要求较高的应用中。
该公司表示,SwiftKV 的性能提升建立在大部分计算资源在输入或提示阶段被消耗的假设之上。许多业务任务使用长问题并生成短答案,这意味着大部分计算能力都用于解释提示。Snowflake 在其工程博客上发布的分布图显示,典型的 Snowflake 客户工作负载中输入 token 是输出 token 的 10 倍。
Snowflake 的 AI 研究团队负责人兼杰出软件工程师 Yuxiong He 表示:"SwiftKV 不区分输入和输出。当我们启用 SwiftKV 时,模型重新布线同时发生在输入处理和输出生成过程中。我们仅在输入处理(也就是预填充计算)上实现计算减少。"
SwiftKV 通过重用已完成的工作而不是重复相同的计算来节省时间,将额外步骤减少一半,同时保持准确性的最小损失。它还使用了一种称为"自蒸馏"的技巧来确保记住所需的一切,因此答案质量不会改变。在基准测试中,Snowflake 表示准确率下降不到一个百分点。
He 表示:"两者之间存在很小的质量差距,但如果客户特别关注这一领域,他们可以选择使用 Cortex AI 中的基础 Llama 模型。"
Snowflake 表示,这项技术能够在多种用例中实现性能优化。它提高了非结构化文本处理任务(如摘要、翻译和情感分析)的吞吐量。在对延迟敏感的场景中,如聊天机器人或 AI 副驾驶,SwiftKV 将生成首个 token 的时间(即模型生成并返回第一个输出所需的时间)减少了高达 50%。
好文章,需要你的鼓励
最新数据显示,Windows 11市场份额已达50.24%,首次超越Windows 10的46.84%。这一转变主要源于Windows 10即将于2025年10月14日结束支持,企业用户加速迁移。一年前Windows 10份额还高达66.04%,而Windows 11仅为29.75%。企业多采用分批迁移策略,部分选择付费延长支持或转向Windows 365。硬件销售受限,AI PC等高端产品销量平平,市场份额提升更多来自系统升级而非新设备采购。
清华大学团队开发出LangScene-X系统,仅需两张照片就能重建完整的3D语言场景。该系统通过TriMap视频扩散模型生成RGB图像、法线图和语义图,配合语言量化压缩器实现高效特征处理,最终构建可进行自然语言查询的三维空间。实验显示其准确率比现有方法提高10-30%,为VR/AR、机器人导航、智能搜索等应用提供了新的技术路径。
新一代液态基础模型突破传统变换器架构,能耗降低10-20倍,可直接在手机等边缘设备运行。该技术基于线虫大脑结构开发,支持离线运行,无需云服务和数据中心基础设施。在性能基准测试中已超越同等规模的Meta Llama和微软Phi模型,为企业级应用和边缘计算提供低成本、高性能解决方案,在隐私保护、安全性和低延迟方面具有显著优势。
IntelliGen AI推出IntFold可控蛋白质结构预测模型,不仅达到AlphaFold 3同等精度,更具备独特的"可控性"特征。该系统能根据需求定制预测特定蛋白质状态,在药物结合亲和力预测等关键应用中表现突出。通过模块化适配器设计,IntFold可高效适应不同任务而无需重新训练,为精准医学和药物发现开辟了新路径。