二十年前,Google 翻译作为机器学习领域的先驱实验之一正式起步,致力于将语言科学转化为人与人之间的沟通桥梁。经过多年发展,这一项目已覆盖数十亿用户,每月翻译字词量超过一万亿。
时至今日,Google 迎来新的里程碑,正式发布了 Gemini 3.5 Live Translate——这是 Google 最新的音频模型,专为实时语音到语音翻译而设计。
该模型能自动识别 70 余种语言,并生成流畅自然的翻译语音,同时保留说话者原有的语调、语速与音调。与传统的逐句翻译系统(需等待说话者说完一句话后才开始翻译)不同,Gemini 3.5 Live Translate 采用连续生成方式,在保证质量与实时性之间实现动态平衡。整个翻译过程几乎不存在明显停顿,始终与说话者保持数秒内的同步。
目前,Gemini 3.5 Live Translate 已开始在 Google 多款产品中陆续上线:
面向开发者:通过 Gemini Live API 和 Google AI Studio 开放公开预览;
面向企业用户:本月起在 Google Meet 中以私有预览形式推出;
面向所有人:在 Android 和 iOS 版 Google Translate 应用中正式上线。
开发者接入 Gemini 3.5 Live Translate
Gemini 3.5 Live Translate 采用流式处理方式,实现跨语言的无缝沟通体验。模型支持多语言输入自动识别,无需手动配置。同时,其强大的抗噪能力使其能够应对嘈杂、复杂的真实环境。开发者可利用该模型构建适用于多语言通话、会议、授课、广播等场景的实时口译功能。
通过 Gemini Live API,开发者可实现视频配音及多语言同步翻译。感兴趣的开发者可访问 Gemini Cookbook,查看演示示例及更多参考代码。
Agora、Fishjam、LiveKit、Pipecat 和 Vision Agents 等开发者平台已接入 Gemini Live API,帮助开发者更便捷地构建和部署语音翻译应用。这些集成方案封装了复杂的实时媒体流传输基础设施,让开发者得以专注于用户体验本身。
合作伙伴 Grab 正在测试该模型,以实现司机与乘客之间近实时的多语言沟通。Grab 平台用户每月通过语音通话产生超过 1000 万次沟通需求。
合作伙伴积极反馈
除 Grab 外,CJ ENM、LiveKit 等公司也对 Gemini 3.5 Live Translate 给予了积极评价,普遍认为其翻译质量出色、准确度高、延迟表现优异。
在 Google Meet 中体验实时翻译升级
Google Meet 的语音翻译功能即将接入 Gemini 3.5 Live Translate,带来以下提升:
支持语言从此前仅有的 5 种扩展至 70 余种;
单次会议可支持超过 2000 种语言组合的互译,不再局限于英语作为中间语言;
界面更新,用户可即时调用语音翻译功能。
该更新将于本月起向部分 Google Workspace 企业用户开放私有预览,并于今年晚些时候面向更多用户推出。
在 Google Translate 应用中体验 Gemini 3.5 Live Translate
该模型同步在全球范围内的 Android 和 iOS 版 Google Translate 应用中上线。使用实时翻译功能时,只需连接任意耳机,即可体验保留说话者语气特征、支持 70 余种语言的流畅翻译。
针对 Android 用户,Google 还正在推出全新的"听筒模式",让用户无需佩戴耳机,只需像接听普通电话一样将手机贴近耳朵,即可通过听筒接收翻译音频。该模式适用于不便让他人听到翻译内容的场景,提供更私密、更便捷的使用体验。例如,用户可通过听筒模式,在聆听西班牙语导览时,实时接收英语翻译。
SynthID 水印保障安全性
所有由 Google 模型生成的音频均已嵌入 SynthID 水印。这一不可感知的水印直接编码于音频输出中,确保 AI 生成内容始终可被检测识别,从而有效防范信息误导风险。如需了解更多关于安全与责任的详细信息,可参阅相关模型说明文档。
Q&A
Q1:Gemini 3.5 Live Translate 和传统翻译系统有什么区别?
A:Gemini 3.5 Live Translate 采用连续生成方式,无需等待说话者说完整句话再翻译,能在保证质量的同时实时跟进说话节奏,全程几乎无明显停顿,始终与说话者保持数秒内的同步。传统逐句翻译系统则需等待完整语句结束后才开始翻译,延迟感更强,自然度也更低。
Q2:Gemini 3.5 Live Translate 支持哪些语言,普通用户怎么用?
A:Gemini 3.5 Live Translate 支持自动识别 70 余种语言,无需手动设置。普通用户可通过 Android 或 iOS 版 Google Translate 应用直接使用实时翻译功能,连接耳机后即可体验流畅翻译。Android 用户还可使用新推出的"听筒模式",无需耳机,贴近耳朵即可收听翻译音频。
Q3:Gemini 3.5 Live Translate 生成的音频内容安全吗,有没有防止滥用的机制?
A:有。所有由 Gemini 3.5 Live Translate 生成的音频均嵌入了 SynthID 水印,该水印不可被人耳感知,但可被技术手段检测识别。这一机制确保 AI 生成的音频内容始终具有可追溯性,有助于防范虚假信息的传播。
好文章,需要你的鼓励
Instagram正在推出一项备受期待的新功能,允许用户手动调整个人主页网格中帖子的排列顺序。用户只需点击主页网格中的任意照片,选择"重新排列网格",即可进入拖拽界面自由调整照片顺序,完成后点击左上角返回按钮即可保存更改。该功能本周起开始向用户推出,部分用户可能尚未获得访问权限。
耶鲁大学研究团队证明两层神经网络在学习有限群运算时,梯度下降自发驱动每个神经元收敛到单一不可约群表示,并在傅里叶域实现秩一旋转对齐,揭示了特征学习的表示论机制。
iOS 27代码中发现"休息提醒"相关字符串,暗示Siri AI可能在对话持续过长时向用户发出休息提示,并提醒用户Siri并非真实的人。目前,OpenAI、Anthropic、Google等公司已陆续为旗下AI产品添加类似功能。苹果尚未官方确认该功能,触发条件也可能不仅限于对话时长。此举表明苹果正关注AI聊天机器人带来的用户健康责任问题。
强化学习训练的大语言模型可在无任何指令的情况下自发发现社会规章制度漏洞,现有安全机制对此几乎无效,这一现象或将重塑AI安全防护框架。