谷歌推出的一款全新AI工具,有望以接近真实对话的速度实现语言翻译,让你与说不同语言的人交流时更加自然流畅。
谷歌周二正式发布Gemini 3.5 Live Translate,这是一款全新的音频模型,旨在让多语言实时对话更加自然。与传统翻译系统需要轮流处理语音不同,Gemini 3.5 Live Translate能够持续监听、翻译并同步播报,整个对话仅有几秒钟的延迟,贴近真实的对话节奏。
该模型可自动识别口语语言,支持超过70种语言,在同一对话中可实现数千种语言组合的切换。谷歌表示,该技术现已向开发者和合作伙伴开放,可集成至会议、通信平台及移动应用中。
Gemini 3.5 Live Translate的新特性
最大的改变在于翻译的方式。Gemini 3.5 Live Translate采用持续流式翻译,无需等待某一方说完再生成译文,从而实现更流畅的对话体验,减少尴尬的停顿、打断和延迟。
该模型专为日常真实沟通场景设计。谷歌表示,它能在嘈杂环境中正常运行,可处理背景噪音、多人同时说话以及非正式语言表达,适用范围广泛,包括客服电话、导览讲解、课堂教学、网约车服务和直播节目等多种场景。
谷歌同样注重语音质量的提升。系统不再生成千篇一律的合成声音,而是尽量保留原说话人的表达特点,包括语速、语调和情感色彩,使翻译后的语音听起来更加自然,对话也更易于理解。
更宏观的目标是推动实时翻译从偶尔的技术演示走向日常沟通的实际应用。通过实现近乎实时的多语言对话,且无需改变说话者的表达习惯,Gemini 3.5 Live Translate有望让跨语言交流对企业、机构和个人都更加便捷实用。
Q&A
Q1:Gemini 3.5 Live Translate和传统翻译工具有什么区别?
A:传统翻译系统通常需要等待一方说完后才能处理并生成译文,存在明显停顿。Gemini 3.5 Live Translate采用持续流式翻译方式,边听边译边播报,整体延迟仅几秒钟,对话体验更接近真实的自然交流,减少了尴尬的停顿和中断。
Q2:Gemini 3.5 Live Translate支持哪些语言?
A:Gemini 3.5 Live Translate支持超过70种语言,在同一场对话中可实现数千种语言组合的自由切换,并能自动识别说话者所使用的语言,无需手动选择。
Q3:Gemini 3.5 Live Translate现在可以在哪些场景中使用?
A:该技术目前已向开发者和合作伙伴开放,可集成到会议系统、通信平台和移动应用中。适用场景包括客服电话、课堂教学、导览讲解、网约车服务和直播节目等,同时支持在嘈杂环境中稳定运行。
好文章,需要你的鼓励
美国连锁超市巨头Albertsons正在基于Databricks构建商品智能平台,整合产品、定价、促销与陈列等决策功能,目标是在2026年底前全面向门店运营商落地。该平台以Databricks Lakehouse存储零售数据,通过Unity Catalog与AI Gateway实现数据治理,并借助AI智能体Genie支持自然语言查询,帮助商家洞察销售趋势,提升决策效率。此举是Albertsons今年四项AI核心战略投资之一。
阿里Qwen团队通过引入强化学习和在线策略蒸馏,将Qwen-Image-2.0升级为Qwen-Image-2.0-RL,让图像生成模型真正学会人类审美,文生图Elo评分提升78分,图像编辑提升93分。
微软正将Windows 11打造成真正的AI操作系统。在Build大会上,微软展示了AI模型与智能代理如何深度融合进Windows 11,让用户通过自然语言完成系统操作。借助Windows ML框架,超过5亿台PC已可在本地离线运行AI任务,无需联网、无token费用、数据不离设备。Office、Photos、Teams等应用已支持本地AI能力,Adobe、WhatsApp、Canva等第三方也在积极跟进,企业级AI PC采购需求有望加速。
港科大与快手联合提出NormGuard,针对流匹配模型强化学习训练中速度范数膨胀问题,通过训练时单向惩罚约束,在保留奖励的同时改善图像真实感。