Gemini 3.5 Live Translate正式发布:流畅自然的实时语音翻译体验

谷歌正式发布 Gemini 3.5 Live Translate,这是其最新的实时语音翻译音频模型。该模型可自动识别 70 余种语言,生成保留说话者语调、节奏和音调的自然语音译文,并持续生成翻译而非等待说话者停顿,延迟仅几秒。目前已面向开发者、企业(Google Meet)及普通用户(Google 翻译 App)推出。所有生成音频均嵌入 SynthID 水印,以防止虚假信息传播。

二十年前,Google 翻译作为机器学习领域的先驱实验之一正式起步,致力于将语言科学转化为人与人之间的沟通桥梁。经过多年发展,这一项目已覆盖数十亿用户,每月翻译字词量超过一万亿。

时至今日,Google 迎来新的里程碑,正式发布了 Gemini 3.5 Live Translate——这是 Google 最新的音频模型,专为实时语音到语音翻译而设计。

该模型能自动识别 70 余种语言,并生成流畅自然的翻译语音,同时保留说话者原有的语调、语速与音调。与传统的逐句翻译系统(需等待说话者说完一句话后才开始翻译)不同,Gemini 3.5 Live Translate 采用连续生成方式,在保证质量与实时性之间实现动态平衡。整个翻译过程几乎不存在明显停顿,始终与说话者保持数秒内的同步。

目前,Gemini 3.5 Live Translate 已开始在 Google 多款产品中陆续上线:

面向开发者:通过 Gemini Live API 和 Google AI Studio 开放公开预览;

面向企业用户:本月起在 Google Meet 中以私有预览形式推出;

面向所有人:在 Android 和 iOS 版 Google Translate 应用中正式上线。

开发者接入 Gemini 3.5 Live Translate

Gemini 3.5 Live Translate 采用流式处理方式,实现跨语言的无缝沟通体验。模型支持多语言输入自动识别,无需手动配置。同时,其强大的抗噪能力使其能够应对嘈杂、复杂的真实环境。开发者可利用该模型构建适用于多语言通话、会议、授课、广播等场景的实时口译功能。

通过 Gemini Live API,开发者可实现视频配音及多语言同步翻译。感兴趣的开发者可访问 Gemini Cookbook,查看演示示例及更多参考代码。

Agora、Fishjam、LiveKit、Pipecat 和 Vision Agents 等开发者平台已接入 Gemini Live API,帮助开发者更便捷地构建和部署语音翻译应用。这些集成方案封装了复杂的实时媒体流传输基础设施,让开发者得以专注于用户体验本身。

合作伙伴 Grab 正在测试该模型,以实现司机与乘客之间近实时的多语言沟通。Grab 平台用户每月通过语音通话产生超过 1000 万次沟通需求。

合作伙伴积极反馈

除 Grab 外,CJ ENM、LiveKit 等公司也对 Gemini 3.5 Live Translate 给予了积极评价,普遍认为其翻译质量出色、准确度高、延迟表现优异。

在 Google Meet 中体验实时翻译升级

Google Meet 的语音翻译功能即将接入 Gemini 3.5 Live Translate,带来以下提升:

支持语言从此前仅有的 5 种扩展至 70 余种;

单次会议可支持超过 2000 种语言组合的互译,不再局限于英语作为中间语言;

界面更新,用户可即时调用语音翻译功能。

该更新将于本月起向部分 Google Workspace 企业用户开放私有预览,并于今年晚些时候面向更多用户推出。

在 Google Translate 应用中体验 Gemini 3.5 Live Translate

该模型同步在全球范围内的 Android 和 iOS 版 Google Translate 应用中上线。使用实时翻译功能时,只需连接任意耳机,即可体验保留说话者语气特征、支持 70 余种语言的流畅翻译。

针对 Android 用户,Google 还正在推出全新的"听筒模式",让用户无需佩戴耳机,只需像接听普通电话一样将手机贴近耳朵,即可通过听筒接收翻译音频。该模式适用于不便让他人听到翻译内容的场景,提供更私密、更便捷的使用体验。例如,用户可通过听筒模式,在聆听西班牙语导览时,实时接收英语翻译。

SynthID 水印保障安全性

所有由 Google 模型生成的音频均已嵌入 SynthID 水印。这一不可感知的水印直接编码于音频输出中,确保 AI 生成内容始终可被检测识别,从而有效防范信息误导风险。如需了解更多关于安全与责任的详细信息,可参阅相关模型说明文档。

Q&A

Q1:Gemini 3.5 Live Translate 和传统翻译系统有什么区别?

A:Gemini 3.5 Live Translate 采用连续生成方式,无需等待说话者说完整句话再翻译,能在保证质量的同时实时跟进说话节奏,全程几乎无明显停顿,始终与说话者保持数秒内的同步。传统逐句翻译系统则需等待完整语句结束后才开始翻译,延迟感更强,自然度也更低。

Q2:Gemini 3.5 Live Translate 支持哪些语言,普通用户怎么用?

A:Gemini 3.5 Live Translate 支持自动识别 70 余种语言,无需手动设置。普通用户可通过 Android 或 iOS 版 Google Translate 应用直接使用实时翻译功能,连接耳机后即可体验流畅翻译。Android 用户还可使用新推出的"听筒模式",无需耳机,贴近耳朵即可收听翻译音频。

Q3:Gemini 3.5 Live Translate 生成的音频内容安全吗,有没有防止滥用的机制?

A:有。所有由 Gemini 3.5 Live Translate 生成的音频均嵌入了 SynthID 水印,该水印不可被人耳感知,但可被技术手段检测识别。这一机制确保 AI 生成的音频内容始终具有可追溯性,有助于防范虚假信息的传播。

来源:Google DeepMind

0赞

好文章,需要你的鼓励

2026

06/10

15:49

分享

点赞

邮件订阅