谷歌推出了名为Gemini 3.1 Flash Live的新AI音频模型,该模型专为实时对话设计,今日开始在谷歌产品中推出,开发者也将能够利用该模型构建自己的对话机器人。
谷歌声称这款AI运行速度更快,语音节奏更加自然,旨在解决AI生成语音的长期问题。与聊天机器人类似,生成式音频系统在输入和输出之间总存在延迟。较长的延迟和不自然的语调使对话显得迟缓且难以跟进。研究人员普遍认为300毫秒的延迟是语音感知的最佳极限,但谷歌并未为Gemini 3.1 Flash Live指定具体的延迟时间,只是模糊地表示具备所需的速度。
在基准测试方面,谷歌提供了大量数据,声称这些数据显示3.1 Flash Live将成为进行音频对话的更可靠方式。例如,在ComplexFuncBench Audio测试中的显著提升表明新模型在复杂多步任务方面表现更佳。Gemini 3.1 Flash Live在Big Bench Audio测试中也名列前茅,该测试通过1000个音频问题评估推理能力。
同时,在Scale AI的Audio MultiChallenge测试中的出色表现意味着新Gemini模型更能应对音频输入中的犹豫和中断。尽管超越了其他实时音频模型,Gemini 3.1 Flash Live在此测试中仅获得36.1%的分数。非对话式设计的音频模型在MultiChallenge测试中可达到50%以上的分数。
总体而言,Gemini 3.1 Flash Live听起来更像真人,以至于谷歌认为是时候集成AI标识了。该模型的输出将带有SynthID水印,人类听众无法感知这些水印,但如果有人试图将Gemini AI语音冒充为真人语音,这些水印可以被检测出来。
谷歌已与家得宝、Verizon等公司合作测试该模型。在博客文章中,这些公司都对3.1 Flash Live模仿人类语音的能力给出了积极评价。因此,您在电话中遇到的下一个AI助手可能听起来更加逼真。也许您甚至会认为自己在与真人交谈,而SynthID在这种情况下无法提供帮助。
开发者现在可以通过AI Studio、Gemini API和Gemini Enterprise for Customer Experience访问该模型。后者本质上是智能体购物的工具包。Gemini 3.1 Flash Live将在Gemini Live和Search Live(AI模式的一个功能)中最显著地展现。这个新的对话AI从今天开始在这些产品中推出。
Q&A
Q1:Gemini 3.1 Flash Live相比其他AI语音模型有什么优势?
A:Gemini 3.1 Flash Live的主要优势是运行速度更快,语音节奏更自然,能够进行实时对话。在ComplexFuncBench Audio和Big Bench Audio等基准测试中表现优异,在处理复杂多步任务和推理能力方面超越了其他实时音频模型。
Q2:SynthID水印是什么?它如何防止AI语音被滥用?
A:SynthID是谷歌为Gemini 3.1 Flash Live输出添加的数字水印技术。这些水印人类听众无法感知,但可以通过技术手段检测出来,用于识别AI生成的语音,防止有人将AI语音冒充为真人语音。
Q3:普通用户如何体验Gemini 3.1 Flash Live?
A:普通用户可以通过Gemini Live和Search Live(AI模式的功能)体验Gemini 3.1 Flash Live。开发者可以通过AI Studio、Gemini API和Gemini Enterprise for Customer Experience平台访问该模型来构建自己的应用。
好文章,需要你的鼓励
美国连锁超市巨头Albertsons正在基于Databricks构建商品智能平台,整合产品、定价、促销与陈列等决策功能,目标是在2026年底前全面向门店运营商落地。该平台以Databricks Lakehouse存储零售数据,通过Unity Catalog与AI Gateway实现数据治理,并借助AI智能体Genie支持自然语言查询,帮助商家洞察销售趋势,提升决策效率。此举是Albertsons今年四项AI核心战略投资之一。
阿里Qwen团队通过引入强化学习和在线策略蒸馏,将Qwen-Image-2.0升级为Qwen-Image-2.0-RL,让图像生成模型真正学会人类审美,文生图Elo评分提升78分,图像编辑提升93分。
微软正将Windows 11打造成真正的AI操作系统。在Build大会上,微软展示了AI模型与智能代理如何深度融合进Windows 11,让用户通过自然语言完成系统操作。借助Windows ML框架,超过5亿台PC已可在本地离线运行AI任务,无需联网、无token费用、数据不离设备。Office、Photos、Teams等应用已支持本地AI能力,Adobe、WhatsApp、Canva等第三方也在积极跟进,企业级AI PC采购需求有望加速。
港科大与快手联合提出NormGuard,针对流匹配模型强化学习训练中速度范数膨胀问题,通过训练时单向惩罚约束,在保留奖励的同时改善图像真实感。