谷歌推出的一款全新AI工具,有望以接近真实对话的速度实现语言翻译,让你与说不同语言的人交流时更加自然流畅。
谷歌周二正式发布Gemini 3.5 Live Translate,这是一款全新的音频模型,旨在让多语言实时对话更加自然。与传统翻译系统需要轮流处理语音不同,Gemini 3.5 Live Translate能够持续监听、翻译并同步播报,整个对话仅有几秒钟的延迟,贴近真实的对话节奏。
该模型可自动识别口语语言,支持超过70种语言,在同一对话中可实现数千种语言组合的切换。谷歌表示,该技术现已向开发者和合作伙伴开放,可集成至会议、通信平台及移动应用中。
Gemini 3.5 Live Translate的新特性
最大的改变在于翻译的方式。Gemini 3.5 Live Translate采用持续流式翻译,无需等待某一方说完再生成译文,从而实现更流畅的对话体验,减少尴尬的停顿、打断和延迟。
该模型专为日常真实沟通场景设计。谷歌表示,它能在嘈杂环境中正常运行,可处理背景噪音、多人同时说话以及非正式语言表达,适用范围广泛,包括客服电话、导览讲解、课堂教学、网约车服务和直播节目等多种场景。
谷歌同样注重语音质量的提升。系统不再生成千篇一律的合成声音,而是尽量保留原说话人的表达特点,包括语速、语调和情感色彩,使翻译后的语音听起来更加自然,对话也更易于理解。
更宏观的目标是推动实时翻译从偶尔的技术演示走向日常沟通的实际应用。通过实现近乎实时的多语言对话,且无需改变说话者的表达习惯,Gemini 3.5 Live Translate有望让跨语言交流对企业、机构和个人都更加便捷实用。
Q&A
Q1:Gemini 3.5 Live Translate和传统翻译工具有什么区别?
A:传统翻译系统通常需要等待一方说完后才能处理并生成译文,存在明显停顿。Gemini 3.5 Live Translate采用持续流式翻译方式,边听边译边播报,整体延迟仅几秒钟,对话体验更接近真实的自然交流,减少了尴尬的停顿和中断。
Q2:Gemini 3.5 Live Translate支持哪些语言?
A:Gemini 3.5 Live Translate支持超过70种语言,在同一场对话中可实现数千种语言组合的自由切换,并能自动识别说话者所使用的语言,无需手动选择。
Q3:Gemini 3.5 Live Translate现在可以在哪些场景中使用?
A:该技术目前已向开发者和合作伙伴开放,可集成到会议系统、通信平台和移动应用中。适用场景包括客服电话、课堂教学、导览讲解、网约车服务和直播节目等,同时支持在嘈杂环境中稳定运行。
好文章,需要你的鼓励
AMD 最近推出了第二代 AMD Versal Premium MoP(Memory on Package,封装上内存)自适应SoC。
蚂蚁集团AI安全实验室开发的SingGuard是一套多模态内容安全审核系统,能同时理解图片与文字的组合意图,并支持运行时动态传入自定义规则,实现策略自适应的安全判断。
Upstage AI构建韩语宽度搜索基准KO-WIDESEARCH,测试20个AI系统填写完整结构化表格的能力,揭示AI善于找成员却难以填对每格的核心缺陷。