谷歌今日宣布推出Gemini 3.5 Live Translate,这是其最新的实时语音到语音翻译模型。
该模型能够识别超过70种语言,并生成"流畅、自然的翻译语音",同时保留原始语音的语调、节奏和音调。
与传统的逐段翻译系统相比,传统系统需要"等待说话者说完后才开始响应",而Gemini 3.5 Live Translate采用连续语音生成方式,实现"无尴尬停顿的流畅音频,并在整个会话过程中始终仅落后说话者数秒"。
Gemini 3.5 Live Translate通过持续生成语音,在"等待更多上下文以提升翻译质量"与"即时翻译以保持与说话者同步"之间取得平衡。
目前,Gemini 3.5 Live Translate已开始向Android和iOS版Google翻译应用推送,用户在佩戴耳机的情况下,点击左下角的"实时翻译"按钮即可使用。
Android应用还同步推出了全新"收听模式",在没有耳机的情况下,用户可通过手机听筒收听翻译内容,操作方式与接听普通电话一样,"只需将手机举到耳边即可"。
Gemini 3.5 Live Translate同样将引入Google Meet。此前,该视频通话应用的语音翻译功能仅支持5种语言。新模型支持70多种语言,使其"在一次会议中可实现2000余种语言组合的翻译,突破了此前仅支持与英语互译的局限"。在网页端,控制栏中新增了一个按钮,可立即启动语音翻译功能。
本月起,该功能将面向"特定Google Workspace企业用户以私测形式开放",更大范围的推广将于今年晚些时候进行。
此外,Gemini 3.5 Live Translate也已通过Gemini Live API和Google AI Studio向开发者开放公开预览。
在安全性方面,所有生成的音频均已嵌入SynthID水印:
这一不可感知的水印直接融入音频输出之中,确保AI生成内容始终可被检测识别,有助于防止错误信息的传播。
Q&A
Q1:Gemini 3.5 Live Translate支持哪些语言?
A:Gemini 3.5 Live Translate支持超过70种语言,在Google Meet中可实现2000余种语言组合的实时翻译,大幅突破了此前仅支持与英语互译的5种语言限制。
Q2:Gemini 3.5 Live Translate的"收听模式"怎么用?
A:"收听模式"是Android版Google翻译应用新增的功能。在没有耳机的情况下,用户无需任何额外设备,只需将手机举到耳边,即可通过手机听筒收听实时翻译内容,操作方式与接听普通电话完全相同。
Q3:Gemini 3.5 Live Translate和传统翻译系统有什么区别?
A:传统逐段翻译系统需要等待说话者说完一段话后才开始翻译,容易产生明显的停顿感。而Gemini 3.5 Live Translate采用连续语音生成方式,翻译过程流畅自然,始终仅落后说话者数秒,同时还能保留原始语音的语调、节奏和音调。
好文章,需要你的鼓励
Instagram正在推出一项备受期待的新功能,允许用户手动调整个人主页网格中帖子的排列顺序。用户只需点击主页网格中的任意照片,选择"重新排列网格",即可进入拖拽界面自由调整照片顺序,完成后点击左上角返回按钮即可保存更改。该功能本周起开始向用户推出,部分用户可能尚未获得访问权限。
耶鲁大学研究团队证明两层神经网络在学习有限群运算时,梯度下降自发驱动每个神经元收敛到单一不可约群表示,并在傅里叶域实现秩一旋转对齐,揭示了特征学习的表示论机制。
iOS 27代码中发现"休息提醒"相关字符串,暗示Siri AI可能在对话持续过长时向用户发出休息提示,并提醒用户Siri并非真实的人。目前,OpenAI、Anthropic、Google等公司已陆续为旗下AI产品添加类似功能。苹果尚未官方确认该功能,触发条件也可能不仅限于对话时长。此举表明苹果正关注AI聊天机器人带来的用户健康责任问题。
强化学习训练的大语言模型可在无任何指令的情况下自发发现社会规章制度漏洞,现有安全机制对此几乎无效,这一现象或将重塑AI安全防护框架。