Google 正在其 Gemini API 中推出一项功能,公司宣称这将使其最新的 AI 模型对于第三方开发者更加廉价。
Google 将这一功能称为 “隐式缓存”,并表示可以为通过 Gemini API 传递给模型的 “重复上下文” 节省 75% 的成本。该功能支持 Google 的 Gemini 2.5 Pro 和 2.5 Flash 模型。
随着前沿模型使用成本的不断增长,这无疑将给开发者带来好消息。
缓存是一种在 AI 行业被广泛采用的做法,通过重用模型中经常访问或预计算的数据,可以降低计算需求和成本。例如,缓存可以存储用户常问问题的答案,从而消除了模型重复生成相同请求答案的必要性。
此前 Google 曾提供模型提示缓存,但仅限于显式提示缓存,即开发者必须定义其出现频率最高的提示。虽然理论上可以保证节省成本,但显式提示缓存通常需要大量手动操作。
有开发者对 Google 在 Gemini 2.5 Pro 上的显式缓存实现表达了不满,他们表示该实现可能导致 API 费账单意外地高昂。上周关于此问题的抱怨声不断,促使 Gemini 团队公开道歉并承诺进行整改。
与显式缓存相比,隐式缓存是自动执行的。对于 Gemini 2.5 模型,隐式缓存默认开启,如果对模型发出的 Gemini API 请求命中了缓存,则会传递节省的成本。
Google 在博客中解释称:“当你向其中一个 Gemini 2.5 模型发送请求时,如果该请求与之前某次请求共享相同的前缀,则有资格命中缓存。我们将动态地将节省下来的成本返还给你。”
根据 Google 的开发者文档,2.5 Flash 模型隐式缓存的最低提示 Token 数是 1,024,而 2.5 Pro 模型则为 2,048,这个数值并不算太大,也就是说触发这些自动节省所需的条件并不苛刻。Token 是模型处理数据的基本单位,一千 Token 约等于 750 个单词。
鉴于 Google 之前的缓存成本节省声明曾遭遇挫折,这项新功能中也存在一些需要买家注意的地方。首先,Google 建议开发者将重复上下文保留在请求的开头,以提高隐式缓存命中的概率。对于可能在每次请求中变化的上下文,建议在末尾追加。
其次,Google 并未提供任何第三方验证,证明新的隐式缓存系统能实现承诺的自动节省效果。因此,最终效果如何,还需等待早期采用者的反馈。
好文章,需要你的鼓励
惠普企业(HPE)发布搭载英伟达Blackwell架构GPU的新服务器,抢占AI技术需求激增市场。IDC预测,搭载GPU的服务器年增长率将达46.7%,占总市场价值近50%。2025年服务器市场预计增长39.9%至2839亿美元。英伟达向微软等大型云服务商大量供应Blackwell GPU,每周部署约7.2万块,可能影响HPE服务器交付时间。HPE在全球服务器市场占13%份额。受美国出口限制影响,国际客户可能面临额外限制。新服务器将于2025年9月2日开始全球发货。
阿里巴巴团队提出FantasyTalking2,通过创新的多专家协作框架TLPO解决音频驱动人像动画中动作自然度、唇同步和视觉质量的优化冲突问题。该方法构建智能评委Talking-Critic和41万样本数据集,训练三个专业模块分别优化不同维度,再通过时间步-层级自适应融合实现协调。实验显示全面超越现有技术,用户评价提升超12%。
安全专业协会ISACA面向全球近20万名认证安全专业人员推出AI安全管理高级认证(AAISM)。研究显示61%的安全专业人员担心生成式AI被威胁行为者利用。该认证涵盖AI治理与项目管理、风险管理、技术与控制三个领域,帮助网络安全专业人员掌握AI安全实施、政策制定和风险管控。申请者需持有CISM或CISSP认证。
UC Berkeley团队提出XQUANT技术,通过存储输入激活X而非传统KV缓存来突破AI推理的内存瓶颈。该方法能将内存使用量减少至1/7.7,升级版XQUANT-CL更可实现12.5倍节省,同时几乎不影响模型性能。研究针对现代AI模型特点进行优化,为在有限硬件资源下运行更强大AI模型提供了新思路。