Gemini 3.5 Live Translate正式发布：流畅自然的实时语音翻译体验

谷歌正式发布 Gemini 3.5 Live Translate，这是其最新的实时语音翻译音频模型。该模型可自动识别 70 余种语言，生成保留说话者语调、节奏和音调的自然语音译文，并持续生成翻译而非等待说话者停顿，延迟仅几秒。目前已面向开发者、企业（Google Meet）及普通用户（Google 翻译 App）推出。所有生成音频均嵌入 SynthID 水印，以防止虚假信息传播。

二十年前，Google 翻译作为机器学习领域的先驱实验之一正式起步，致力于将语言科学转化为人与人之间的沟通桥梁。经过多年发展，这一项目已覆盖数十亿用户，每月翻译字词量超过一万亿。

时至今日，Google 迎来新的里程碑，正式发布了 Gemini 3.5 Live Translate——这是 Google 最新的音频模型，专为实时语音到语音翻译而设计。

该模型能自动识别 70 余种语言，并生成流畅自然的翻译语音，同时保留说话者原有的语调、语速与音调。与传统的逐句翻译系统（需等待说话者说完一句话后才开始翻译）不同，Gemini 3.5 Live Translate 采用连续生成方式，在保证质量与实时性之间实现动态平衡。整个翻译过程几乎不存在明显停顿，始终与说话者保持数秒内的同步。

目前，Gemini 3.5 Live Translate 已开始在 Google 多款产品中陆续上线：

面向开发者：通过 Gemini Live API 和 Google AI Studio 开放公开预览；

面向企业用户：本月起在 Google Meet 中以私有预览形式推出；

面向所有人：在 Android 和 iOS 版 Google Translate 应用中正式上线。

开发者接入 Gemini 3.5 Live Translate

Gemini 3.5 Live Translate 采用流式处理方式，实现跨语言的无缝沟通体验。模型支持多语言输入自动识别，无需手动配置。同时，其强大的抗噪能力使其能够应对嘈杂、复杂的真实环境。开发者可利用该模型构建适用于多语言通话、会议、授课、广播等场景的实时口译功能。

通过 Gemini Live API，开发者可实现视频配音及多语言同步翻译。感兴趣的开发者可访问 Gemini Cookbook，查看演示示例及更多参考代码。

Agora、Fishjam、LiveKit、Pipecat 和 Vision Agents 等开发者平台已接入 Gemini Live API，帮助开发者更便捷地构建和部署语音翻译应用。这些集成方案封装了复杂的实时媒体流传输基础设施，让开发者得以专注于用户体验本身。

合作伙伴 Grab 正在测试该模型，以实现司机与乘客之间近实时的多语言沟通。Grab 平台用户每月通过语音通话产生超过 1000 万次沟通需求。

合作伙伴积极反馈

除 Grab 外，CJ ENM、LiveKit 等公司也对 Gemini 3.5 Live Translate 给予了积极评价，普遍认为其翻译质量出色、准确度高、延迟表现优异。

在 Google Meet 中体验实时翻译升级

Google Meet 的语音翻译功能即将接入 Gemini 3.5 Live Translate，带来以下提升：

支持语言从此前仅有的 5 种扩展至 70 余种；

单次会议可支持超过 2000 种语言组合的互译，不再局限于英语作为中间语言；

界面更新，用户可即时调用语音翻译功能。

该更新将于本月起向部分 Google Workspace 企业用户开放私有预览，并于今年晚些时候面向更多用户推出。

在 Google Translate 应用中体验 Gemini 3.5 Live Translate

该模型同步在全球范围内的 Android 和 iOS 版 Google Translate 应用中上线。使用实时翻译功能时，只需连接任意耳机，即可体验保留说话者语气特征、支持 70 余种语言的流畅翻译。

针对 Android 用户，Google 还正在推出全新的"听筒模式"，让用户无需佩戴耳机，只需像接听普通电话一样将手机贴近耳朵，即可通过听筒接收翻译音频。该模式适用于不便让他人听到翻译内容的场景，提供更私密、更便捷的使用体验。例如，用户可通过听筒模式，在聆听西班牙语导览时，实时接收英语翻译。

SynthID 水印保障安全性

所有由 Google 模型生成的音频均已嵌入 SynthID 水印。这一不可感知的水印直接编码于音频输出中，确保 AI 生成内容始终可被检测识别，从而有效防范信息误导风险。如需了解更多关于安全与责任的详细信息，可参阅相关模型说明文档。

Q&A

Q1：Gemini 3.5 Live Translate 和传统翻译系统有什么区别？

A：Gemini 3.5 Live Translate 采用连续生成方式，无需等待说话者说完整句话再翻译，能在保证质量的同时实时跟进说话节奏，全程几乎无明显停顿，始终与说话者保持数秒内的同步。传统逐句翻译系统则需等待完整语句结束后才开始翻译，延迟感更强，自然度也更低。

Q2：Gemini 3.5 Live Translate 支持哪些语言，普通用户怎么用？

A：Gemini 3.5 Live Translate 支持自动识别 70 余种语言，无需手动设置。普通用户可通过 Android 或 iOS 版 Google Translate 应用直接使用实时翻译功能，连接耳机后即可体验流畅翻译。Android 用户还可使用新推出的"听筒模式"，无需耳机，贴近耳朵即可收听翻译音频。

Q3：Gemini 3.5 Live Translate 生成的音频内容安全吗，有没有防止滥用的机制？

A：有。所有由 Gemini 3.5 Live Translate 生成的音频均嵌入了 SynthID 水印，该水印不可被人耳感知，但可被技术手段检测识别。这一机制确保 AI 生成的音频内容始终具有可追溯性，有助于防范虚假信息的传播。

来源：Google DeepMind

0赞

好文章，需要你的鼓励

Gemini 3.5 Live Translate正式发布：流畅自然的实时语音翻译体验

来源：Google DeepMind

2026

06/10

15:49

分享

点赞

WAIC2026 现场直击：开普勒顶流人气王，麒麟系列火爆出圈

面壁智能将密度定律带入具身智能

龙磁科技拟投3.58亿元扩建越南永磁铁氧体基地

首创一层Scale-up网络256卡全互联，摩尔线程MTT C256超节点为万卡及十万卡级集群夯实底座

从高血压诊疗入手，北京安贞医院让医疗大模型走出聊天框

西门子肖松：以场景为牵引，推动工业AI从单点实效迈向生产力跃迁

打造Token极致性价比 新华三震撼亮相2026世界人工智能大会

机器人管家系统上线！傅利叶携多款康养陪伴新品方案亮相WAIC 2026

赛那德“ 自主作业机器人天团” 登陆 WAIC：iLoabot-X+模型双升级，秀出具身场景落地硬实力

西门子Eigen工程智能体中国首发首展，荣获2026 WAIC SAIL之星奖

NVIDIA Cosmos 推动物理 AI 前沿发展

PPIO亮相WAIC 2026：发布智能模型网关，打造面向Agent时代的智能Token工厂

iOS 27 终于为苹果日历应用带来了自然语言输入功能

OnePlus 15开始推送AirDrop快速共享支持功能

Festo推出GripperAI软件，助力机器人实现灵活柔性抓取

Gemini 3.5实时翻译功能登陆Google Meet与翻译应用，新增"收听模式"

Nomad 推出透明版 Qi2 25W 无线充电器，科技感十足

Google Fi推出五大旅行升级功能，Pixel网络切换能力全面提升

Mesoware获150万美元融资，打造制造业AI机器人解决方案

BT加入Anthropic"玻璃翼计划"，强化网络安全防御体系

Google宣布推出Gemini 3.5实时翻译功能，支持即时语音互译

Runway与Holywater Tech：两家正在颠覆娱乐业的AI公司

如果您非常迫切的想了解IT领域最新产品与技术信息，那么订阅至顶网技术邮件将是您的最佳途径之一

三一集团：数字化是必选项，AI是生存项

因湃电池 × 达索系统：如何共创出一套电池产业最佳实践

AI走进真实世界之后：安全、健康与产业的新命题

CES 2026

关注官方公众号

关注官方微博

关注官方喜马拉雅

友情链接

业界热点:

打造Token极致性价比新华三震撼亮相2026世界人工智能大会