Google 推出 “隐式缓存” 降低最新 AI 模型访问成本

Google 在 Gemini API 中推出自动缓存功能，通过复用重复数据为开发者节省最多 75% 的调用成本，有望缓解高额 API 费用问题。

Google 正在其 Gemini API 中推出一项功能，公司宣称这将使其最新的 AI 模型对于第三方开发者更加廉价。

Google 将这一功能称为 “隐式缓存”，并表示可以为通过 Gemini API 传递给模型的 “重复上下文” 节省 75% 的成本。该功能支持 Google 的 Gemini 2.5 Pro 和 2.5 Flash 模型。

随着前沿模型使用成本的不断增长，这无疑将给开发者带来好消息。

缓存是一种在 AI 行业被广泛采用的做法，通过重用模型中经常访问或预计算的数据，可以降低计算需求和成本。例如，缓存可以存储用户常问问题的答案，从而消除了模型重复生成相同请求答案的必要性。

此前 Google 曾提供模型提示缓存，但仅限于显式提示缓存，即开发者必须定义其出现频率最高的提示。虽然理论上可以保证节省成本，但显式提示缓存通常需要大量手动操作。

有开发者对 Google 在 Gemini 2.5 Pro 上的显式缓存实现表达了不满，他们表示该实现可能导致 API 费账单意外地高昂。上周关于此问题的抱怨声不断，促使 Gemini 团队公开道歉并承诺进行整改。

与显式缓存相比，隐式缓存是自动执行的。对于 Gemini 2.5 模型，隐式缓存默认开启，如果对模型发出的 Gemini API 请求命中了缓存，则会传递节省的成本。

Google 在博客中解释称：“当你向其中一个 Gemini 2.5 模型发送请求时，如果该请求与之前某次请求共享相同的前缀，则有资格命中缓存。我们将动态地将节省下来的成本返还给你。”

根据 Google 的开发者文档，2.5 Flash 模型隐式缓存的最低提示 Token 数是 1,024，而 2.5 Pro 模型则为 2,048，这个数值并不算太大，也就是说触发这些自动节省所需的条件并不苛刻。Token 是模型处理数据的基本单位，一千 Token 约等于 750 个单词。

鉴于 Google 之前的缓存成本节省声明曾遭遇挫折，这项新功能中也存在一些需要买家注意的地方。首先，Google 建议开发者将重复上下文保留在请求的开头，以提高隐式缓存命中的概率。对于可能在每次请求中变化的上下文，建议在末尾追加。

其次，Google 并未提供任何第三方验证，证明新的隐式缓存系统能实现承诺的自动节省效果。因此，最终效果如何，还需等待早期采用者的反馈。

来源：Techcrunch

0赞

好文章，需要你的鼓励

Google 推出 “隐式缓存” 降低最新 AI 模型访问成本

来源：Techcrunch

2025

05/09

18:58

分享

点赞

傅利叶十年，升级核心战略：赋能于人，做“有温度”的具身智能

据报道，Meta 正在考虑使用 “超级感知” 技术打造智能眼镜

Google 推出 “隐式缓存” 降低最新 AI 模型访问成本

Startup Korl 推出多模态、多代理工具，实现跨系统定制化沟通

为什么 agentic AI 是下一波创新浪潮

RSA 大会 2025 精彩亮点、洞见与值得关注的公司

Mistral AI发布Medium 3模型，低成本高性能

xMEMS 推出单片微型散热扇技术扩展至 AI 数据中心

Nutanix 与 Pure Storage 联手应对 VMware 不确定性

将 AI 领导者与仍局限于试点模式的 92% 区分开的 5 种策略

高墙花园出现裂痕：纳德拉押注微软的 Copilots —— 以及 Azure 的下一步动作 —— 基于 A2A/MCP 的互操作性

阿里巴巴的 “ZeroSearch” 让 AI 自学谷歌搜索本身——将训练成本降低 88%

Startup Korl 推出多模态、多代理工具，实现跨系统定制化沟通

为什么 agentic AI 是下一波创新浪潮

Mistral AI发布Medium 3模型，低成本高性能

xMEMS 推出单片微型散热扇技术扩展至 AI 数据中心

将 AI 领导者与仍局限于试点模式的 92% 区分开的 5 种策略

高墙花园出现裂痕：纳德拉押注微软的 Copilots —— 以及 Azure 的下一步动作 —— 基于 A2A/MCP 的互操作性

阿里巴巴的 “ZeroSearch” 让 AI 自学谷歌搜索本身——将训练成本降低 88%

OpenAI任命 Instacart 领导人 Fidji Simo 为应用业务新任 CEO

OpenAI 投资海外 AI 基础设施建设项目

Siemens Mobility 的生成式 AI 让 IT 更加贴近业务

如果您非常迫切的想了解IT领域最新产品与技术信息，那么订阅至顶网技术邮件将是您的最佳途径之一

芝加哥大学赵燕斌：我们做的是让AI看不见的“艺术”

杨晓东眼中的AI"中国速度"，希捷如何跑赢这场数据竞赛？

当ERP长出AI神经，胜负手在于业务扎根

CES 2025：沉浸AI

关注官方公众号

关注官方微博

关注官方喜马拉雅

友情链接

业界热点: