谷歌今日宣布推出Gemini 3.5 Live Translate,这是其最新的实时语音到语音翻译模型。
该模型能够识别超过70种语言,并生成"流畅、自然的翻译语音",同时保留原始语音的语调、节奏和音调。
与传统的逐段翻译系统相比,传统系统需要"等待说话者说完后才开始响应",而Gemini 3.5 Live Translate采用连续语音生成方式,实现"无尴尬停顿的流畅音频,并在整个会话过程中始终仅落后说话者数秒"。
Gemini 3.5 Live Translate通过持续生成语音,在"等待更多上下文以提升翻译质量"与"即时翻译以保持与说话者同步"之间取得平衡。
目前,Gemini 3.5 Live Translate已开始向Android和iOS版Google翻译应用推送,用户在佩戴耳机的情况下,点击左下角的"实时翻译"按钮即可使用。
Android应用还同步推出了全新"收听模式",在没有耳机的情况下,用户可通过手机听筒收听翻译内容,操作方式与接听普通电话一样,"只需将手机举到耳边即可"。
Gemini 3.5 Live Translate同样将引入Google Meet。此前,该视频通话应用的语音翻译功能仅支持5种语言。新模型支持70多种语言,使其"在一次会议中可实现2000余种语言组合的翻译,突破了此前仅支持与英语互译的局限"。在网页端,控制栏中新增了一个按钮,可立即启动语音翻译功能。
本月起,该功能将面向"特定Google Workspace企业用户以私测形式开放",更大范围的推广将于今年晚些时候进行。
此外,Gemini 3.5 Live Translate也已通过Gemini Live API和Google AI Studio向开发者开放公开预览。
在安全性方面,所有生成的音频均已嵌入SynthID水印:
这一不可感知的水印直接融入音频输出之中,确保AI生成内容始终可被检测识别,有助于防止错误信息的传播。
Q&A
Q1:Gemini 3.5 Live Translate支持哪些语言?
A:Gemini 3.5 Live Translate支持超过70种语言,在Google Meet中可实现2000余种语言组合的实时翻译,大幅突破了此前仅支持与英语互译的5种语言限制。
Q2:Gemini 3.5 Live Translate的"收听模式"怎么用?
A:"收听模式"是Android版Google翻译应用新增的功能。在没有耳机的情况下,用户无需任何额外设备,只需将手机举到耳边,即可通过手机听筒收听实时翻译内容,操作方式与接听普通电话完全相同。
Q3:Gemini 3.5 Live Translate和传统翻译系统有什么区别?
A:传统逐段翻译系统需要等待说话者说完一段话后才开始翻译,容易产生明显的停顿感。而Gemini 3.5 Live Translate采用连续语音生成方式,翻译过程流畅自然,始终仅落后说话者数秒,同时还能保留原始语音的语调、节奏和音调。
好文章,需要你的鼓励
美国连锁超市巨头Albertsons正在基于Databricks构建商品智能平台,整合产品、定价、促销与陈列等决策功能,目标是在2026年底前全面向门店运营商落地。该平台以Databricks Lakehouse存储零售数据,通过Unity Catalog与AI Gateway实现数据治理,并借助AI智能体Genie支持自然语言查询,帮助商家洞察销售趋势,提升决策效率。此举是Albertsons今年四项AI核心战略投资之一。
阿里Qwen团队通过引入强化学习和在线策略蒸馏,将Qwen-Image-2.0升级为Qwen-Image-2.0-RL,让图像生成模型真正学会人类审美,文生图Elo评分提升78分,图像编辑提升93分。
微软正将Windows 11打造成真正的AI操作系统。在Build大会上,微软展示了AI模型与智能代理如何深度融合进Windows 11,让用户通过自然语言完成系统操作。借助Windows ML框架,超过5亿台PC已可在本地离线运行AI任务,无需联网、无token费用、数据不离设备。Office、Photos、Teams等应用已支持本地AI能力,Adobe、WhatsApp、Canva等第三方也在积极跟进,企业级AI PC采购需求有望加速。
港科大与快手联合提出NormGuard,针对流匹配模型强化学习训练中速度范数膨胀问题,通过训练时单向惩罚约束,在保留奖励的同时改善图像真实感。