谷歌发布的最新人工智能工具有望为所有智能手机用户带来实时翻译能力,让不同语言的使用者之间的交流变得更加自然流畅。
谷歌官方博客今日正式宣布推出 Gemini 3.5 实时翻译功能。据介绍,这是谷歌迄今发布的最先进的语音到语音翻译音频模型。传统翻译工具因需逐段处理和转译语音而显得笨拙迟缓,而 Gemini 3.5 实时翻译则大幅提升了翻译速度。谷歌表示,该模型能够在用户说话的同时持续监听,将内容实时翻译后以对方的母语进行播报。
这意味着,即便是只会单一语言的用户,也能实现近乎自然的对话体验——翻译延迟仅有几秒钟,感觉有些类似于早年旋转拨号电话时代的长途通话。
谷歌产品经理 Anuda Weerasinghe 和高级首席软件工程师 Tony Lu 在联合撰写的博客文章中提到,Gemini 3.5 实时翻译可以自动识别说话者所使用的语言,无需提前进行任何设置。该功能上线时即支持超过 70 种语言,意味着它能够覆盖"数千"种不同的语言组合。
谷歌正将该功能面向开发者和企业开放,预计不久后将与第三方通信平台实现集成。与此同时,该功能也已直接向所有用户在 Google 翻译应用中推出。
这并非谷歌首次尝试实时翻译,但此前的努力始终依赖特定硬件,例如谷歌自家的智能手机和耳机。Gemini 3.5 实时翻译的不同之处在于,它可以在任意智能手机上运行。此外,该功能基于全新架构,从底层改变了翻译的工作方式。
该功能采用"连续流式翻译"技术,无需等待一方说完整句话再开始生成翻译,而是边听边译,从而实现更为流畅的翻译对话体验。
Weerasinghe 和 Lu 表示,Gemini 3.5 实时翻译在设计上充分考虑了现实环境的复杂性,能够在嘈杂环境中正常运作,并处理声音重叠和非正式口语等情况。因此,该功能适用于多种实际场景,包括客户支持通话、课堂教学、导览服务、网约车出行以及直播节目等。
他们还着重强调了该模型语音质量的提升。不同于标准谷歌翻译应用中机械化的合成语音,Gemini 3.5 实时翻译致力于还原说话者的自然表达,通过匹配说话节奏、语调和情感色彩,让翻译后的语音听起来更加真实自然,从而有效提升对话的流畅度。
谷歌推出 Gemini 3.5 实时翻译的长远目标,是让全球任何人都能跨越语言障碍自由交流,无论对方使用何种语言。从目前来看,该功能在帮助旅行者和寻求跨国商业合作的人士方面具有相当大的潜力。
Q&A
Q1:Gemini 3.5 实时翻译支持哪些语言?
A:Gemini 3.5 实时翻译在上线时即支持超过 70 种语言,并且能够覆盖数千种不同的语言组合。用户无需手动设置语言,系统可以自动识别说话者正在使用的语言,直接进行实时翻译,使用门槛非常低。
Q2:Gemini 3.5 实时翻译和之前的谷歌翻译有什么区别?
A:主要区别体现在三个方面:一是无需特定硬件,可在任意智能手机上运行;二是采用"连续流式翻译"架构,无需等待整句说完即可实时翻译,延迟更低;三是翻译语音更自然,能够匹配说话者的节奏、语调和情感色彩,而非传统的机械合成语音。
Q3:Gemini 3.5 实时翻译适合在哪些场景使用?
A:该功能适用于多种实际场景,包括客户支持通话、课堂教学、导览讲解、网约车出行、直播节目等。由于支持嘈杂环境和口语表达,日常对话、商务交流以及跨语言旅行等场景均可使用。
好文章,需要你的鼓励
美国连锁超市巨头Albertsons正在基于Databricks构建商品智能平台,整合产品、定价、促销与陈列等决策功能,目标是在2026年底前全面向门店运营商落地。该平台以Databricks Lakehouse存储零售数据,通过Unity Catalog与AI Gateway实现数据治理,并借助AI智能体Genie支持自然语言查询,帮助商家洞察销售趋势,提升决策效率。此举是Albertsons今年四项AI核心战略投资之一。
阿里Qwen团队通过引入强化学习和在线策略蒸馏,将Qwen-Image-2.0升级为Qwen-Image-2.0-RL,让图像生成模型真正学会人类审美,文生图Elo评分提升78分,图像编辑提升93分。
微软正将Windows 11打造成真正的AI操作系统。在Build大会上,微软展示了AI模型与智能代理如何深度融合进Windows 11,让用户通过自然语言完成系统操作。借助Windows ML框架,超过5亿台PC已可在本地离线运行AI任务,无需联网、无token费用、数据不离设备。Office、Photos、Teams等应用已支持本地AI能力,Adobe、WhatsApp、Canva等第三方也在积极跟进,企业级AI PC采购需求有望加速。
港科大与快手联合提出NormGuard,针对流匹配模型强化学习训练中速度范数膨胀问题,通过训练时单向惩罚约束,在保留奖励的同时改善图像真实感。