随着内存等计算机组件价格飞涨,人工智能成本急剧上升,谷歌上周推出了一项名为TurboQuant的技术创新来应对这一挑战。
谷歌研究人员在博客文章中介绍的TurboQuant,堪称另一个DeepSeek AI时刻,是降低AI成本的深刻尝试。通过减少AI的内存使用,它可以显著提高模型效率,带来持久的收益。
尽管如此,正如DeepSeek没有阻止AI芯片的大规模投资一样,观察家认为TurboQuant可能会继续推动AI投资增长。这就是杰文斯悖论:让某样东西变得更高效,最终会增加该资源的整体使用量。
不过,TurboQuant这种方法可能通过减少大语言模型的硬件需求,帮助在本地运行AI。
AI的主要成本因素
目前AI的最大成本因素,也可能是可预见未来的主要问题,是对内存和存储技术日益增长的使用。AI对数据的渴求,带来了计算史上前所未有的内存和存储依赖。
TurboQuant最初由谷歌研究人员在一年前的论文中描述,采用"量化"技术来减少表示数据所需的位和字节数。
量化是数据压缩的一种形式,使用更少的位来表示相同的值。对于TurboQuant,重点是所谓的"键值缓存"(KV缓存),这是AI最大的内存消耗者之一。
键值缓存的工作原理
当你向谷歌Gemini等聊天机器人输入文字时,AI必须将你输入的内容与作为数据库的测量库进行比较。
你输入的内容称为查询,它与内存中保存的数据(称为键)进行匹配以找到数值匹配。基本上,这是一个相似性分数。然后使用键从内存中检索应该作为AI响应返回给你的确切词汇,称为值。
通常,每次你输入时,AI模型都必须计算新的键和值,这可能会拖慢整个操作。为了加快速度,机器在内存中保留一个键值缓存来存储最近使用的键和值。
然后缓存本身就成了问题:你与模型工作得越多,键值缓存占用的内存就越多。谷歌首席作者阿米尔·赞迪和同事们表示:"这种扩展在内存使用和计算速度方面是一个重大瓶颈,特别是对于长上下文模型。"
更糟糕的是,AI模型越来越多地使用更复杂的键和值构建,称为上下文窗口。这为模型提供了更多搜索选项,可能提高准确性。当前版本的Gemini 3在上下文窗口方面实现了重大飞跃,达到100万个Token。之前的最先进模型如OpenAI的GPT-4的上下文窗口仅为32768个Token。更大的上下文窗口也会增加键值缓存消耗的内存量。
TurboQuant的创新之处
解决不断扩展的KV缓存的方案是对键和值进行量化,使整个缓存占用更少空间。赞迪团队在博客文章中声称,TurboQuant的数据压缩是"大规模的"。他们写道:"在不妨碍准确性的情况下减少KV缓存大小至关重要。"
谷歌和其他公司多年来一直使用量化来精简神经网络。TurboQuant的新颖之处在于它旨在实时量化。以前的压缩方法在编译时(即在生产运行之前)减少神经网络的大小。
赞迪观察到这还不够好。KV缓存是在"推理时间"(即人们向AI机器人输入时)学到的内容的实时摘要,键和值在变化。因此,量化必须足够快速和准确,以保持缓存较小的同时也保持最新状态。TurboQuant中的"turbo"意味着这比传统的编译时量化快得多。
技术实现方式
TurboQuant有两个阶段。首先,查询和键被压缩。这可以通过几何方法完成,因为查询和键是数据向量,可以在X-Y图上描绘为一条线,该线可以在图上旋转。他们称这些旋转为"PolarQuant"。通过使用PolarQuant随机尝试不同的旋转,然后检索原始线,他们找到了仍能保持准确性的更少位数。
正如他们所说:"PolarQuant充当高效压缩桥梁,将笛卡尔输入转换为紧凑的极坐标'简写'进行存储和处理。"
压缩向量在执行查询和键之间的比较时仍会产生错误,这被称为两个向量的"内积"。为了解决这个问题,他们使用了赞迪在2024年引入的第二种方法QJL。该方法保持两个向量中的一个处于原始状态,因此将压缩(量化)向量与未压缩向量相乘作为改善乘法准确性的测试。
实验结果与应用前景
他们通过将TurboQuant应用于Meta Platforms的开源Llama 3.1-8B AI模型进行测试,发现"TurboQuant在所有基准测试中实现了完美的下游结果,同时将键值内存大小减少了至少6倍"——所需KV缓存减少了六倍。
这种方法也不同于压缩KV缓存的其他方法,例如去年DeepSeek采用的约束键和值搜索以加快推理速度的方法。
在使用谷歌Gemma开源模型和法国AI初创公司Mistral的模型进行的另一项测试中,他们写道:"TurboQuant证明它可以将键值缓存量化到仅3位,无需训练或微调,且不会对模型准确性造成任何妨碍,同时实现比原始大语言模型(Gemma和Mistral)更快的运行时间。"
他们观察到:"实施起来异常高效,运行时开销可忽略不计。"
赞迪团队预期TurboQuant将对AI推理的生产使用产生重大影响。他们写道:"随着AI越来越多地集成到从大语言模型到语义搜索的所有产品中,这项基础向量量化工作将比以往任何时候都更加关键。"
对AI成本的实际影响
但它真的会降低AI成本吗?答案是肯定也是否定的。
在智能体AI时代,像OpenClaw这样自主运行的程序,除了KV缓存之外,AI还有很多组成部分。其他内存使用,如检索和存储数据库记录,最终会在长期影响智能体的效率。
关注AI芯片领域的人士上周争论说,正如去年DeepSeek AI的效率提升没有减缓AI投资一样,TurboQuant也不会。
关注AI芯片的美林银行银行家维韦克·阿里亚向担心DRAM制造商美光科技的客户写道,TurboQuant将简单地更有效地使用AI。阿里亚写道:"内存效率提升6倍很可能导致准确性(模型大小)和/或上下文长度(KV缓存分配)增加6倍,而不是内存减少6倍。"
不过,TurboQuant能做的是使AI的某些个别实例更经济,特别是对于本地部署。
例如,在有限的硬件预算上运行某些AI模型时,膨胀的KV缓存和更长的上下文窗口可能证明负担较小。这对于希望将MacBook Neo或Mac mini作为预算本地AI服务器的OpenClaw用户来说将是一种解脱。
Q&A
Q1:TurboQuant是什么技术?它如何降低AI成本?
A:TurboQuant是谷歌开发的一项量化技术,专门用于压缩AI模型中的键值缓存(KV缓存)。它通过实时压缩数据来减少AI模型运行时的内存使用量,测试显示可以将内存需求减少6倍以上,从而降低AI运行成本。
Q2:键值缓存为什么会成为AI的内存负担?
A:当用户与AI聊天机器人交互时,AI需要将输入的查询与内存中的键进行匹配,然后检索对应的值作为回应。为了提高速度,系统会保留一个键值缓存存储常用的键值对,但随着交互增多和上下文窗口扩大,这个缓存会占用越来越多内存。
Q3:TurboQuant技术会真正减少AI投资需求吗?
A:不一定。虽然TurboQuant能提高内存效率,但根据杰文斯悖论,效率提升往往会导致使用量增加。专家认为6倍的内存效率提升可能会被用于构建6倍大小的模型或更长的上下文,而不是减少内存需求。但它确实能让本地AI部署更加经济可行。
好文章,需要你的鼓励
穆拉蒂时隔18个月首次接受重大媒体采访,介绍其创立的Thinking Machines Lab正在开发的"交互模型"。该模型能以200毫秒间隔处理音频、文本和视频流,捕捉人类交流中的中断、修正和停顿。她还谈及OpenAI"政变周"经历,强调行业决策权过于集中的担忧,并回应了公司近期研究人员离职问题,表示这是初创实验室的正常波动。
STATE16研究院这篇综述发现,物理AI系统存在"静默失效"风险——AI以高度自信执行基于错误世界信息的动作,却不触发任何报警,并提出在AI输出与物理执行之间建立独立授权层的框架。
本期《Quick Charge》播客涵盖多个热点话题:特斯拉疑似试图删除FSD欺诈相关证据以规避巨额赔付;卡特彼勒持续推进建筑领域电气化布局;住宅太阳能30%税收抵免即将到期。此外,嘉宾Tom Pacheco就高压系统与电池技术培训展开探讨,强调电动车技术人才培养的紧迫性。节目同时提醒有意安装太阳能的用户尽快行动,可通过EnergySage平台比较多家安装商报价。
UIUC与微软联合研发的OpenWebRL框架让4B小模型仅凭400条初始数据,通过在真实网站上边做边学的强化学习方式,在网页智能体基准上超越了用27万条数据训练的竞争对手。