谷歌 Gemini 3.5 实时翻译:以接近自然对话的速度实现语言沟通

谷歌推出最新AI工具Gemini 3.5 Live Translate,支持超过70种语言的实时语音翻译,覆盖数千种语言组合。该工具采用"连续流翻译"架构,无需等待说话者停顿即可实时生成译文,延迟仅数秒,翻译效果更自然流畅。它能自动识别语种,适应嘈杂环境及非正式表达,并尽量保留说话者的语气与情感。目前已向开发者、企业及普通用户开放,可在任意智能手机上运行。

谷歌发布的最新人工智能工具有望为所有智能手机用户带来实时翻译能力,让不同语言的使用者之间的交流变得更加自然流畅。

谷歌官方博客今日正式宣布推出 Gemini 3.5 实时翻译功能。据介绍,这是谷歌迄今发布的最先进的语音到语音翻译音频模型。传统翻译工具因需逐段处理和转译语音而显得笨拙迟缓,而 Gemini 3.5 实时翻译则大幅提升了翻译速度。谷歌表示,该模型能够在用户说话的同时持续监听,将内容实时翻译后以对方的母语进行播报。

这意味着,即便是只会单一语言的用户,也能实现近乎自然的对话体验——翻译延迟仅有几秒钟,感觉有些类似于早年旋转拨号电话时代的长途通话。

谷歌产品经理 Anuda Weerasinghe 和高级首席软件工程师 Tony Lu 在联合撰写的博客文章中提到,Gemini 3.5 实时翻译可以自动识别说话者所使用的语言,无需提前进行任何设置。该功能上线时即支持超过 70 种语言,意味着它能够覆盖"数千"种不同的语言组合。

谷歌正将该功能面向开发者和企业开放,预计不久后将与第三方通信平台实现集成。与此同时,该功能也已直接向所有用户在 Google 翻译应用中推出。

这并非谷歌首次尝试实时翻译,但此前的努力始终依赖特定硬件,例如谷歌自家的智能手机和耳机。Gemini 3.5 实时翻译的不同之处在于,它可以在任意智能手机上运行。此外,该功能基于全新架构,从底层改变了翻译的工作方式。

该功能采用"连续流式翻译"技术,无需等待一方说完整句话再开始生成翻译,而是边听边译,从而实现更为流畅的翻译对话体验。

Weerasinghe 和 Lu 表示,Gemini 3.5 实时翻译在设计上充分考虑了现实环境的复杂性,能够在嘈杂环境中正常运作,并处理声音重叠和非正式口语等情况。因此,该功能适用于多种实际场景,包括客户支持通话、课堂教学、导览服务、网约车出行以及直播节目等。

他们还着重强调了该模型语音质量的提升。不同于标准谷歌翻译应用中机械化的合成语音,Gemini 3.5 实时翻译致力于还原说话者的自然表达,通过匹配说话节奏、语调和情感色彩,让翻译后的语音听起来更加真实自然,从而有效提升对话的流畅度。

谷歌推出 Gemini 3.5 实时翻译的长远目标,是让全球任何人都能跨越语言障碍自由交流,无论对方使用何种语言。从目前来看,该功能在帮助旅行者和寻求跨国商业合作的人士方面具有相当大的潜力。

Q&A

Q1:Gemini 3.5 实时翻译支持哪些语言?

A:Gemini 3.5 实时翻译在上线时即支持超过 70 种语言,并且能够覆盖数千种不同的语言组合。用户无需手动设置语言,系统可以自动识别说话者正在使用的语言,直接进行实时翻译,使用门槛非常低。

Q2:Gemini 3.5 实时翻译和之前的谷歌翻译有什么区别?

A:主要区别体现在三个方面:一是无需特定硬件,可在任意智能手机上运行;二是采用"连续流式翻译"架构,无需等待整句说完即可实时翻译,延迟更低;三是翻译语音更自然,能够匹配说话者的节奏、语调和情感色彩,而非传统的机械合成语音。

Q3:Gemini 3.5 实时翻译适合在哪些场景使用?

A:该功能适用于多种实际场景,包括客户支持通话、课堂教学、导览讲解、网约车出行、直播节目等。由于支持嘈杂环境和口语表达,日常对话、商务交流以及跨语言旅行等场景均可使用。

来源:SiliconANGLE

0赞

好文章,需要你的鼓励

2026

06/10

17:09

分享

点赞

邮件订阅