谷歌TurboQuant技术能否真正降低AI成本

随着AI成本因内存等计算组件价格飙升而急剧上涨，谷歌推出TurboQuant技术创新方案。该技术通过量化压缩大幅减少AI模型的内存使用量，特别是针对占用大量内存的键值缓存进行实时压缩，在保持精度的同时将内存需求降低6倍。虽然TurboQuant可能降低单个AI实例的成本，但专家认为根据杰文斯悖论，效率提升往往导致整体资源使用增加，因此可能不会减缓AI投资增长。

随着内存等计算机组件价格飞涨，人工智能成本急剧上升，谷歌上周推出了一项名为TurboQuant的技术创新来应对这一挑战。

谷歌研究人员在博客文章中介绍的TurboQuant，堪称另一个DeepSeek AI时刻，是降低AI成本的深刻尝试。通过减少AI的内存使用，它可以显著提高模型效率，带来持久的收益。

尽管如此，正如DeepSeek没有阻止AI芯片的大规模投资一样，观察家认为TurboQuant可能会继续推动AI投资增长。这就是杰文斯悖论：让某样东西变得更高效，最终会增加该资源的整体使用量。

不过，TurboQuant这种方法可能通过减少大语言模型的硬件需求，帮助在本地运行AI。

AI的主要成本因素

目前AI的最大成本因素，也可能是可预见未来的主要问题，是对内存和存储技术日益增长的使用。AI对数据的渴求，带来了计算史上前所未有的内存和存储依赖。

TurboQuant最初由谷歌研究人员在一年前的论文中描述，采用"量化"技术来减少表示数据所需的位和字节数。

量化是数据压缩的一种形式，使用更少的位来表示相同的值。对于TurboQuant，重点是所谓的"键值缓存"（KV缓存），这是AI最大的内存消耗者之一。

键值缓存的工作原理

当你向谷歌Gemini等聊天机器人输入文字时，AI必须将你输入的内容与作为数据库的测量库进行比较。

你输入的内容称为查询，它与内存中保存的数据（称为键）进行匹配以找到数值匹配。基本上，这是一个相似性分数。然后使用键从内存中检索应该作为AI响应返回给你的确切词汇，称为值。

通常，每次你输入时，AI模型都必须计算新的键和值，这可能会拖慢整个操作。为了加快速度，机器在内存中保留一个键值缓存来存储最近使用的键和值。

然后缓存本身就成了问题：你与模型工作得越多，键值缓存占用的内存就越多。谷歌首席作者阿米尔·赞迪和同事们表示："这种扩展在内存使用和计算速度方面是一个重大瓶颈，特别是对于长上下文模型。"

更糟糕的是，AI模型越来越多地使用更复杂的键和值构建，称为上下文窗口。这为模型提供了更多搜索选项，可能提高准确性。当前版本的Gemini 3在上下文窗口方面实现了重大飞跃，达到100万个Token。之前的最先进模型如OpenAI的GPT-4的上下文窗口仅为32768个Token。更大的上下文窗口也会增加键值缓存消耗的内存量。

TurboQuant的创新之处

解决不断扩展的KV缓存的方案是对键和值进行量化，使整个缓存占用更少空间。赞迪团队在博客文章中声称，TurboQuant的数据压缩是"大规模的"。他们写道："在不妨碍准确性的情况下减少KV缓存大小至关重要。"

谷歌和其他公司多年来一直使用量化来精简神经网络。TurboQuant的新颖之处在于它旨在实时量化。以前的压缩方法在编译时（即在生产运行之前）减少神经网络的大小。

赞迪观察到这还不够好。KV缓存是在"推理时间"（即人们向AI机器人输入时）学到的内容的实时摘要，键和值在变化。因此，量化必须足够快速和准确，以保持缓存较小的同时也保持最新状态。TurboQuant中的"turbo"意味着这比传统的编译时量化快得多。

技术实现方式

TurboQuant有两个阶段。首先，查询和键被压缩。这可以通过几何方法完成，因为查询和键是数据向量，可以在X-Y图上描绘为一条线，该线可以在图上旋转。他们称这些旋转为"PolarQuant"。通过使用PolarQuant随机尝试不同的旋转，然后检索原始线，他们找到了仍能保持准确性的更少位数。

正如他们所说："PolarQuant充当高效压缩桥梁，将笛卡尔输入转换为紧凑的极坐标'简写'进行存储和处理。"

压缩向量在执行查询和键之间的比较时仍会产生错误，这被称为两个向量的"内积"。为了解决这个问题，他们使用了赞迪在2024年引入的第二种方法QJL。该方法保持两个向量中的一个处于原始状态，因此将压缩（量化）向量与未压缩向量相乘作为改善乘法准确性的测试。

实验结果与应用前景

他们通过将TurboQuant应用于Meta Platforms的开源Llama 3.1-8B AI模型进行测试，发现"TurboQuant在所有基准测试中实现了完美的下游结果，同时将键值内存大小减少了至少6倍"——所需KV缓存减少了六倍。

这种方法也不同于压缩KV缓存的其他方法，例如去年DeepSeek采用的约束键和值搜索以加快推理速度的方法。

在使用谷歌Gemma开源模型和法国AI初创公司Mistral的模型进行的另一项测试中，他们写道："TurboQuant证明它可以将键值缓存量化到仅3位，无需训练或微调，且不会对模型准确性造成任何妨碍，同时实现比原始大语言模型（Gemma和Mistral）更快的运行时间。"

他们观察到："实施起来异常高效，运行时开销可忽略不计。"

赞迪团队预期TurboQuant将对AI推理的生产使用产生重大影响。他们写道："随着AI越来越多地集成到从大语言模型到语义搜索的所有产品中，这项基础向量量化工作将比以往任何时候都更加关键。"

对AI成本的实际影响

但它真的会降低AI成本吗？答案是肯定也是否定的。

在智能体AI时代，像OpenClaw这样自主运行的程序，除了KV缓存之外，AI还有很多组成部分。其他内存使用，如检索和存储数据库记录，最终会在长期影响智能体的效率。

关注AI芯片领域的人士上周争论说，正如去年DeepSeek AI的效率提升没有减缓AI投资一样，TurboQuant也不会。

关注AI芯片的美林银行银行家维韦克·阿里亚向担心DRAM制造商美光科技的客户写道，TurboQuant将简单地更有效地使用AI。阿里亚写道："内存效率提升6倍很可能导致准确性（模型大小）和/或上下文长度（KV缓存分配）增加6倍，而不是内存减少6倍。"

不过，TurboQuant能做的是使AI的某些个别实例更经济，特别是对于本地部署。

例如，在有限的硬件预算上运行某些AI模型时，膨胀的KV缓存和更长的上下文窗口可能证明负担较小。这对于希望将MacBook Neo或Mac mini作为预算本地AI服务器的OpenClaw用户来说将是一种解脱。

Q&A

Q1：TurboQuant是什么技术？它如何降低AI成本？

A：TurboQuant是谷歌开发的一项量化技术，专门用于压缩AI模型中的键值缓存（KV缓存）。它通过实时压缩数据来减少AI模型运行时的内存使用量，测试显示可以将内存需求减少6倍以上，从而降低AI运行成本。

Q2：键值缓存为什么会成为AI的内存负担？

A：当用户与AI聊天机器人交互时，AI需要将输入的查询与内存中的键进行匹配，然后检索对应的值作为回应。为了提高速度，系统会保留一个键值缓存存储常用的键值对，但随着交互增多和上下文窗口扩大，这个缓存会占用越来越多内存。

Q3：TurboQuant技术会真正减少AI投资需求吗？

A：不一定。虽然TurboQuant能提高内存效率，但根据杰文斯悖论，效率提升往往会导致使用量增加。专家认为6倍的内存效率提升可能会被用于构建6倍大小的模型或更长的上下文，而不是减少内存需求。但它确实能让本地AI部署更加经济可行。

来源：ZDNET

0赞

好文章，需要你的鼓励

谷歌TurboQuant技术能否真正降低AI成本

来源：ZDNET

2026

03/31

16:26

分享

点赞

特斯拉疑似删除FSD证据，卡特彼勒加速电动化布局，高压系统技术培训刻不容缓

智能体网络流量首超真人访问，"死亡互联网"理论引发新争议

Mentium Technologies Luna-R1 AI芯片入选ET-01星座任务，完成多星部署里程碑

汤道生×姚顺雨：腾讯AI下半场，拼的是“模型×产品”系统能力

AI驱动网络犯罪数量飙升，勒索软件受害者年增389%：Fortinet 发布2026年全球威胁态势研究报告

Inbolt将在Automate展会发布视觉驱动机器人编程新功能

笔记本电脑深度清洁指南：内外兼修焕然一新

加利福尼亚州城市通过全美首个由选民投票决定的数据中心禁令

柴油替代方案：AI数据中心如何利用燃气引擎与蒸汽涡轮供电

AI定义汽车时代，车载以太网可靠性面临全新挑战

安全算法的持续更新正变得愈发困难

轨道数据中心本质上是功能强化的卫星

Mantis Biotech打造人体"数字孪生"解决医学数据短缺难题

AI专家称技术岗位不会消失，程序员也无需担忧

安全治理加速金融AI收入增长

MIT研究人员使用人工智能发现材料中的原子缺陷

剑桥移动遥测获得3.5亿美元战略投资

打造透明化的AI供应链

LiteLLM遭遇安全危机后弃用Delve转向新合规伙伴

15%美国人愿意为AI老板工作

SAP收购Reltio以增强AI平台外部数据整合能力

Mistral AI筹集8.3亿美元债务建设巴黎数据中心

如果您非常迫切的想了解IT领域最新产品与技术信息，那么订阅至顶网技术邮件将是您的最佳途径之一

因湃电池 × 达索系统：如何共创出一套电池产业最佳实践

AI走进真实世界之后：安全、健康与产业的新命题

CES 2026

2025 re:Invent ：亚马逊云科技把Agentic AI生态梳理明白了

关注官方公众号

关注官方微博

关注官方喜马拉雅

友情链接

业界热点: