谷歌TurboQuant技术能否真正降低AI成本

随着AI成本因内存等计算组件价格飙升而急剧上涨,谷歌推出TurboQuant技术创新方案。该技术通过量化压缩大幅减少AI模型的内存使用量,特别是针对占用大量内存的键值缓存进行实时压缩,在保持精度的同时将内存需求降低6倍。虽然TurboQuant可能降低单个AI实例的成本,但专家认为根据杰文斯悖论,效率提升往往导致整体资源使用增加,因此可能不会减缓AI投资增长。

随着内存等计算机组件价格飞涨,人工智能成本急剧上升,谷歌上周推出了一项名为TurboQuant的技术创新来应对这一挑战。

谷歌研究人员在博客文章中介绍的TurboQuant,堪称另一个DeepSeek AI时刻,是降低AI成本的深刻尝试。通过减少AI的内存使用,它可以显著提高模型效率,带来持久的收益。

尽管如此,正如DeepSeek没有阻止AI芯片的大规模投资一样,观察家认为TurboQuant可能会继续推动AI投资增长。这就是杰文斯悖论:让某样东西变得更高效,最终会增加该资源的整体使用量。

不过,TurboQuant这种方法可能通过减少大语言模型的硬件需求,帮助在本地运行AI。

AI的主要成本因素

目前AI的最大成本因素,也可能是可预见未来的主要问题,是对内存和存储技术日益增长的使用。AI对数据的渴求,带来了计算史上前所未有的内存和存储依赖。

TurboQuant最初由谷歌研究人员在一年前的论文中描述,采用"量化"技术来减少表示数据所需的位和字节数。

量化是数据压缩的一种形式,使用更少的位来表示相同的值。对于TurboQuant,重点是所谓的"键值缓存"(KV缓存),这是AI最大的内存消耗者之一。

键值缓存的工作原理

当你向谷歌Gemini等聊天机器人输入文字时,AI必须将你输入的内容与作为数据库的测量库进行比较。

你输入的内容称为查询,它与内存中保存的数据(称为键)进行匹配以找到数值匹配。基本上,这是一个相似性分数。然后使用键从内存中检索应该作为AI响应返回给你的确切词汇,称为值。

通常,每次你输入时,AI模型都必须计算新的键和值,这可能会拖慢整个操作。为了加快速度,机器在内存中保留一个键值缓存来存储最近使用的键和值。

然后缓存本身就成了问题:你与模型工作得越多,键值缓存占用的内存就越多。谷歌首席作者阿米尔·赞迪和同事们表示:"这种扩展在内存使用和计算速度方面是一个重大瓶颈,特别是对于长上下文模型。"

更糟糕的是,AI模型越来越多地使用更复杂的键和值构建,称为上下文窗口。这为模型提供了更多搜索选项,可能提高准确性。当前版本的Gemini 3在上下文窗口方面实现了重大飞跃,达到100万个Token。之前的最先进模型如OpenAI的GPT-4的上下文窗口仅为32768个Token。更大的上下文窗口也会增加键值缓存消耗的内存量。

TurboQuant的创新之处

解决不断扩展的KV缓存的方案是对键和值进行量化,使整个缓存占用更少空间。赞迪团队在博客文章中声称,TurboQuant的数据压缩是"大规模的"。他们写道:"在不妨碍准确性的情况下减少KV缓存大小至关重要。"

谷歌和其他公司多年来一直使用量化来精简神经网络。TurboQuant的新颖之处在于它旨在实时量化。以前的压缩方法在编译时(即在生产运行之前)减少神经网络的大小。

赞迪观察到这还不够好。KV缓存是在"推理时间"(即人们向AI机器人输入时)学到的内容的实时摘要,键和值在变化。因此,量化必须足够快速和准确,以保持缓存较小的同时也保持最新状态。TurboQuant中的"turbo"意味着这比传统的编译时量化快得多。

技术实现方式

TurboQuant有两个阶段。首先,查询和键被压缩。这可以通过几何方法完成,因为查询和键是数据向量,可以在X-Y图上描绘为一条线,该线可以在图上旋转。他们称这些旋转为"PolarQuant"。通过使用PolarQuant随机尝试不同的旋转,然后检索原始线,他们找到了仍能保持准确性的更少位数。

正如他们所说:"PolarQuant充当高效压缩桥梁,将笛卡尔输入转换为紧凑的极坐标'简写'进行存储和处理。"

压缩向量在执行查询和键之间的比较时仍会产生错误,这被称为两个向量的"内积"。为了解决这个问题,他们使用了赞迪在2024年引入的第二种方法QJL。该方法保持两个向量中的一个处于原始状态,因此将压缩(量化)向量与未压缩向量相乘作为改善乘法准确性的测试。

实验结果与应用前景

他们通过将TurboQuant应用于Meta Platforms的开源Llama 3.1-8B AI模型进行测试,发现"TurboQuant在所有基准测试中实现了完美的下游结果,同时将键值内存大小减少了至少6倍"——所需KV缓存减少了六倍。

这种方法也不同于压缩KV缓存的其他方法,例如去年DeepSeek采用的约束键和值搜索以加快推理速度的方法。

在使用谷歌Gemma开源模型和法国AI初创公司Mistral的模型进行的另一项测试中,他们写道:"TurboQuant证明它可以将键值缓存量化到仅3位,无需训练或微调,且不会对模型准确性造成任何妨碍,同时实现比原始大语言模型(Gemma和Mistral)更快的运行时间。"

他们观察到:"实施起来异常高效,运行时开销可忽略不计。"

赞迪团队预期TurboQuant将对AI推理的生产使用产生重大影响。他们写道:"随着AI越来越多地集成到从大语言模型到语义搜索的所有产品中,这项基础向量量化工作将比以往任何时候都更加关键。"

对AI成本的实际影响

但它真的会降低AI成本吗?答案是肯定也是否定的。

在智能体AI时代,像OpenClaw这样自主运行的程序,除了KV缓存之外,AI还有很多组成部分。其他内存使用,如检索和存储数据库记录,最终会在长期影响智能体的效率。

关注AI芯片领域的人士上周争论说,正如去年DeepSeek AI的效率提升没有减缓AI投资一样,TurboQuant也不会。

关注AI芯片的美林银行银行家维韦克·阿里亚向担心DRAM制造商美光科技的客户写道,TurboQuant将简单地更有效地使用AI。阿里亚写道:"内存效率提升6倍很可能导致准确性(模型大小)和/或上下文长度(KV缓存分配)增加6倍,而不是内存减少6倍。"

不过,TurboQuant能做的是使AI的某些个别实例更经济,特别是对于本地部署。

例如,在有限的硬件预算上运行某些AI模型时,膨胀的KV缓存和更长的上下文窗口可能证明负担较小。这对于希望将MacBook Neo或Mac mini作为预算本地AI服务器的OpenClaw用户来说将是一种解脱。

Q&A

Q1:TurboQuant是什么技术?它如何降低AI成本?

A:TurboQuant是谷歌开发的一项量化技术,专门用于压缩AI模型中的键值缓存(KV缓存)。它通过实时压缩数据来减少AI模型运行时的内存使用量,测试显示可以将内存需求减少6倍以上,从而降低AI运行成本。

Q2:键值缓存为什么会成为AI的内存负担?

A:当用户与AI聊天机器人交互时,AI需要将输入的查询与内存中的键进行匹配,然后检索对应的值作为回应。为了提高速度,系统会保留一个键值缓存存储常用的键值对,但随着交互增多和上下文窗口扩大,这个缓存会占用越来越多内存。

Q3:TurboQuant技术会真正减少AI投资需求吗?

A:不一定。虽然TurboQuant能提高内存效率,但根据杰文斯悖论,效率提升往往会导致使用量增加。专家认为6倍的内存效率提升可能会被用于构建6倍大小的模型或更长的上下文,而不是减少内存需求。但它确实能让本地AI部署更加经济可行。

来源:ZDNET

0赞

好文章,需要你的鼓励

2026

03/31

16:26

分享

点赞

邮件订阅