Gemini 3.5实时翻译功能登陆Google Meet与翻译应用,新增"收听模式"

谷歌发布Gemini 3.5 Live Translate模型,支持70余种语言的实时语音互译,能保留语调、节奏与音调,实现流畅自然的连续翻译输出,避免传统逐句翻译的尴尬停顿。该功能已在Android与iOS版Google翻译中上线,并新增"听筒模式",无需耳机即可使用。Google Meet同步引入该功能,支持2000余种语言组合。企业用户本月进入私有预览阶段,开发者可通过Gemini Live API及AI Studio访问。所有生成音频均附带SynthID水印以防范虚假信息。

谷歌今日宣布推出Gemini 3.5 Live Translate,这是其最新的实时语音到语音翻译模型。

该模型能够识别超过70种语言,并生成"流畅、自然的翻译语音",同时保留原始语音的语调、节奏和音调。

与传统的逐段翻译系统相比,传统系统需要"等待说话者说完后才开始响应",而Gemini 3.5 Live Translate采用连续语音生成方式,实现"无尴尬停顿的流畅音频,并在整个会话过程中始终仅落后说话者数秒"。

Gemini 3.5 Live Translate通过持续生成语音,在"等待更多上下文以提升翻译质量"与"即时翻译以保持与说话者同步"之间取得平衡。

目前,Gemini 3.5 Live Translate已开始向Android和iOS版Google翻译应用推送,用户在佩戴耳机的情况下,点击左下角的"实时翻译"按钮即可使用。

Android应用还同步推出了全新"收听模式",在没有耳机的情况下,用户可通过手机听筒收听翻译内容,操作方式与接听普通电话一样,"只需将手机举到耳边即可"。

Gemini 3.5 Live Translate同样将引入Google Meet。此前,该视频通话应用的语音翻译功能仅支持5种语言。新模型支持70多种语言,使其"在一次会议中可实现2000余种语言组合的翻译,突破了此前仅支持与英语互译的局限"。在网页端,控制栏中新增了一个按钮,可立即启动语音翻译功能。

本月起,该功能将面向"特定Google Workspace企业用户以私测形式开放",更大范围的推广将于今年晚些时候进行。

此外,Gemini 3.5 Live Translate也已通过Gemini Live API和Google AI Studio向开发者开放公开预览。

在安全性方面,所有生成的音频均已嵌入SynthID水印:

这一不可感知的水印直接融入音频输出之中,确保AI生成内容始终可被检测识别,有助于防止错误信息的传播。

Q&A

Q1:Gemini 3.5 Live Translate支持哪些语言?

A:Gemini 3.5 Live Translate支持超过70种语言,在Google Meet中可实现2000余种语言组合的实时翻译,大幅突破了此前仅支持与英语互译的5种语言限制。

Q2:Gemini 3.5 Live Translate的"收听模式"怎么用?

A:"收听模式"是Android版Google翻译应用新增的功能。在没有耳机的情况下,用户无需任何额外设备,只需将手机举到耳边,即可通过手机听筒收听实时翻译内容,操作方式与接听普通电话完全相同。

Q3:Gemini 3.5 Live Translate和传统翻译系统有什么区别?

A:传统逐段翻译系统需要等待说话者说完一段话后才开始翻译,容易产生明显的停顿感。而Gemini 3.5 Live Translate采用连续语音生成方式,翻译过程流畅自然,始终仅落后说话者数秒,同时还能保留原始语音的语调、节奏和音调。

来源:Electrek

0赞

好文章,需要你的鼓励

2026

06/10

15:49

分享

点赞

邮件订阅