谷歌推出的一款全新AI工具,有望以接近真实对话的速度实现语言翻译,让你与说不同语言的人交流时更加自然流畅。
谷歌周二正式发布Gemini 3.5 Live Translate,这是一款全新的音频模型,旨在让多语言实时对话更加自然。与传统翻译系统需要轮流处理语音不同,Gemini 3.5 Live Translate能够持续监听、翻译并同步播报,整个对话仅有几秒钟的延迟,贴近真实的对话节奏。
该模型可自动识别口语语言,支持超过70种语言,在同一对话中可实现数千种语言组合的切换。谷歌表示,该技术现已向开发者和合作伙伴开放,可集成至会议、通信平台及移动应用中。
Gemini 3.5 Live Translate的新特性
最大的改变在于翻译的方式。Gemini 3.5 Live Translate采用持续流式翻译,无需等待某一方说完再生成译文,从而实现更流畅的对话体验,减少尴尬的停顿、打断和延迟。
该模型专为日常真实沟通场景设计。谷歌表示,它能在嘈杂环境中正常运行,可处理背景噪音、多人同时说话以及非正式语言表达,适用范围广泛,包括客服电话、导览讲解、课堂教学、网约车服务和直播节目等多种场景。
谷歌同样注重语音质量的提升。系统不再生成千篇一律的合成声音,而是尽量保留原说话人的表达特点,包括语速、语调和情感色彩,使翻译后的语音听起来更加自然,对话也更易于理解。
更宏观的目标是推动实时翻译从偶尔的技术演示走向日常沟通的实际应用。通过实现近乎实时的多语言对话,且无需改变说话者的表达习惯,Gemini 3.5 Live Translate有望让跨语言交流对企业、机构和个人都更加便捷实用。
Q&A
Q1:Gemini 3.5 Live Translate和传统翻译工具有什么区别?
A:传统翻译系统通常需要等待一方说完后才能处理并生成译文,存在明显停顿。Gemini 3.5 Live Translate采用持续流式翻译方式,边听边译边播报,整体延迟仅几秒钟,对话体验更接近真实的自然交流,减少了尴尬的停顿和中断。
Q2:Gemini 3.5 Live Translate支持哪些语言?
A:Gemini 3.5 Live Translate支持超过70种语言,在同一场对话中可实现数千种语言组合的自由切换,并能自动识别说话者所使用的语言,无需手动选择。
Q3:Gemini 3.5 Live Translate现在可以在哪些场景中使用?
A:该技术目前已向开发者和合作伙伴开放,可集成到会议系统、通信平台和移动应用中。适用场景包括客服电话、课堂教学、导览讲解、网约车服务和直播节目等,同时支持在嘈杂环境中稳定运行。
好文章,需要你的鼓励
Gazelle在北美市场发布全新Ultimate平台,推出两款三级电动自行车——Ultimate C380+ 2.0(售价4999美元)和Ultimate T11+(售价4499美元),最高时速可达28英里(45公里)。新平台搭载博世Performance Line Sport电机,提供85Nm扭矩,配备80mm悬挂前叉与55mm宽胎,兼顾高速稳定性与骑行舒适度。Gazelle坚持荷兰式骑乘哲学,以优质骑行体验而非堆砌硬件参数为核心竞争力。
这项研究揭示了图语言模型中"图沉没token"现象:激活值最高的图token往往是无意义的占位符,删除它们几乎不影响性能,说明当前模型未能真正利用图拓扑信息。
Rivian邀请媒体赴犹他州帕克城试驾其"押注未来"的量产SUV——R2。这款售价4.5万美元起的车型正式开始交付,外观酷似缩小版R1S,搭载88kWh电池,驾驶质感更运动,能耗表现出色,峰值充电功率达240kW。车内配备200 TOPS边缘AI算力、触觉方向盘及双屏系统。但自动驾驶能力落后、V2X功能长期缺席等短板仍是隐忧。R2能否助Rivian完成量产跨越,是其生死之战。
这项研究收集并分析了63个AI代理费用超支的真实事故,用Rust语言的类型系统实现了从根本上防止预算被重复或错误使用的机制,并与五种主流方案进行了对比验证。