Google 推出 “隐式缓存” 降低最新 AI 模型访问成本

Google 在 Gemini API 中推出自动缓存功能，通过复用重复数据为开发者节省最多 75% 的调用成本，有望缓解高额 API 费用问题。

Google 正在其 Gemini API 中推出一项功能，公司宣称这将使其最新的 AI 模型对于第三方开发者更加廉价。

Google 将这一功能称为 “隐式缓存”，并表示可以为通过 Gemini API 传递给模型的 “重复上下文” 节省 75% 的成本。该功能支持 Google 的 Gemini 2.5 Pro 和 2.5 Flash 模型。

随着前沿模型使用成本的不断增长，这无疑将给开发者带来好消息。

缓存是一种在 AI 行业被广泛采用的做法，通过重用模型中经常访问或预计算的数据，可以降低计算需求和成本。例如，缓存可以存储用户常问问题的答案，从而消除了模型重复生成相同请求答案的必要性。

此前 Google 曾提供模型提示缓存，但仅限于显式提示缓存，即开发者必须定义其出现频率最高的提示。虽然理论上可以保证节省成本，但显式提示缓存通常需要大量手动操作。

有开发者对 Google 在 Gemini 2.5 Pro 上的显式缓存实现表达了不满，他们表示该实现可能导致 API 费账单意外地高昂。上周关于此问题的抱怨声不断，促使 Gemini 团队公开道歉并承诺进行整改。

与显式缓存相比，隐式缓存是自动执行的。对于 Gemini 2.5 模型，隐式缓存默认开启，如果对模型发出的 Gemini API 请求命中了缓存，则会传递节省的成本。

Google 在博客中解释称：“当你向其中一个 Gemini 2.5 模型发送请求时，如果该请求与之前某次请求共享相同的前缀，则有资格命中缓存。我们将动态地将节省下来的成本返还给你。”

根据 Google 的开发者文档，2.5 Flash 模型隐式缓存的最低提示 Token 数是 1,024，而 2.5 Pro 模型则为 2,048，这个数值并不算太大，也就是说触发这些自动节省所需的条件并不苛刻。Token 是模型处理数据的基本单位，一千 Token 约等于 750 个单词。

鉴于 Google 之前的缓存成本节省声明曾遭遇挫折，这项新功能中也存在一些需要买家注意的地方。首先，Google 建议开发者将重复上下文保留在请求的开头，以提高隐式缓存命中的概率。对于可能在每次请求中变化的上下文，建议在末尾追加。

其次，Google 并未提供任何第三方验证，证明新的隐式缓存系统能实现承诺的自动节省效果。因此，最终效果如何，还需等待早期采用者的反馈。

来源：Techcrunch

0赞

好文章，需要你的鼓励

Google 推出 “隐式缓存” 降低最新 AI 模型访问成本

来源：Techcrunch

2025

05/09

18:58

分享

点赞

Meta发布AI翻译功能，支持脸书和Instagram内容实时转换

HPE发布Nvidia Blackwell驱动的AI服务器，抢占AI市场需求

ISACA推出AI安全管理高级认证项目

谷歌推出智能体SOC系统提升安全事件响应速度

Lumen升级400GB数据中心连接基础设施助力AI发展

AI和流媒体推动，2030年面临"网络危机"

Pine64停产Pro手机转向RISC-V业务

日立Vantara将VSP One块存储扩展至Azure云平台

Finchetto光学数据包交换机：光无法存储的技术挑战与突破

Python开发者调查显示增长强劲，但基金会资金面临困境

多站点IT基础设施升级指南：告别VMware的替代方案

戴尔集成Elasticsearch与英伟达Blackwell GPU升级AI数据平台

Startup Korl 推出多模态、多代理工具，实现跨系统定制化沟通

为什么 agentic AI 是下一波创新浪潮

Mistral AI发布Medium 3模型，低成本高性能

xMEMS 推出单片微型散热扇技术扩展至 AI 数据中心

将 AI 领导者与仍局限于试点模式的 92% 区分开的 5 种策略

高墙花园出现裂痕：纳德拉押注微软的 Copilots —— 以及 Azure 的下一步动作 —— 基于 A2A/MCP 的互操作性

阿里巴巴的 “ZeroSearch” 让 AI 自学谷歌搜索本身——将训练成本降低 88%

OpenAI任命 Instacart 领导人 Fidji Simo 为应用业务新任 CEO

OpenAI 投资海外 AI 基础设施建设项目

Siemens Mobility 的生成式 AI 让 IT 更加贴近业务

如果您非常迫切的想了解IT领域最新产品与技术信息，那么订阅至顶网技术邮件将是您的最佳途径之一

关于AI Agent落地，李开复强调了两件事：“价值交付”和“一把手工程”

AWS re:Inforce：费城这天不只拼进球，还拼生成式AI安全

在欧洲之门马德里，我们再次见证了SAP激活企业增长的“飞轮”

IEEE专家委员胡凝：消解AI幻觉“阴影”，洞见“超级个体”价值锚点

关注官方公众号

关注官方微博

关注官方喜马拉雅

友情链接

业界热点: