Gemini 3.1 Flash Live登场:AI语音对话达到近似真人水平

谷歌发布新AI音频模型Gemini 3.1 Flash Live,专为实时对话设计。该模型语音生成速度更快,语调更自然,在多项基准测试中表现出色。为防止AI语音被冒充为真人声音,谷歌为输出内容添加了SynthID水印。目前已与家得宝、威瑞森等公司合作测试,并开始在Gemini Live等产品中推出。

谷歌推出了名为Gemini 3.1 Flash Live的新AI音频模型,该模型专为实时对话设计,今日开始在谷歌产品中推出,开发者也将能够利用该模型构建自己的对话机器人。

谷歌声称这款AI运行速度更快,语音节奏更加自然,旨在解决AI生成语音的长期问题。与聊天机器人类似,生成式音频系统在输入和输出之间总存在延迟。较长的延迟和不自然的语调使对话显得迟缓且难以跟进。研究人员普遍认为300毫秒的延迟是语音感知的最佳极限,但谷歌并未为Gemini 3.1 Flash Live指定具体的延迟时间,只是模糊地表示具备所需的速度。

在基准测试方面,谷歌提供了大量数据,声称这些数据显示3.1 Flash Live将成为进行音频对话的更可靠方式。例如,在ComplexFuncBench Audio测试中的显著提升表明新模型在复杂多步任务方面表现更佳。Gemini 3.1 Flash Live在Big Bench Audio测试中也名列前茅,该测试通过1000个音频问题评估推理能力。

同时,在Scale AI的Audio MultiChallenge测试中的出色表现意味着新Gemini模型更能应对音频输入中的犹豫和中断。尽管超越了其他实时音频模型,Gemini 3.1 Flash Live在此测试中仅获得36.1%的分数。非对话式设计的音频模型在MultiChallenge测试中可达到50%以上的分数。

总体而言,Gemini 3.1 Flash Live听起来更像真人,以至于谷歌认为是时候集成AI标识了。该模型的输出将带有SynthID水印,人类听众无法感知这些水印,但如果有人试图将Gemini AI语音冒充为真人语音,这些水印可以被检测出来。

谷歌已与家得宝、Verizon等公司合作测试该模型。在博客文章中,这些公司都对3.1 Flash Live模仿人类语音的能力给出了积极评价。因此,您在电话中遇到的下一个AI助手可能听起来更加逼真。也许您甚至会认为自己在与真人交谈,而SynthID在这种情况下无法提供帮助。

开发者现在可以通过AI Studio、Gemini API和Gemini Enterprise for Customer Experience访问该模型。后者本质上是智能体购物的工具包。Gemini 3.1 Flash Live将在Gemini Live和Search Live(AI模式的一个功能)中最显著地展现。这个新的对话AI从今天开始在这些产品中推出。

Q&A

Q1:Gemini 3.1 Flash Live相比其他AI语音模型有什么优势?

A:Gemini 3.1 Flash Live的主要优势是运行速度更快,语音节奏更自然,能够进行实时对话。在ComplexFuncBench Audio和Big Bench Audio等基准测试中表现优异,在处理复杂多步任务和推理能力方面超越了其他实时音频模型。

Q2:SynthID水印是什么?它如何防止AI语音被滥用?

A:SynthID是谷歌为Gemini 3.1 Flash Live输出添加的数字水印技术。这些水印人类听众无法感知,但可以通过技术手段检测出来,用于识别AI生成的语音,防止有人将AI语音冒充为真人语音。

Q3:普通用户如何体验Gemini 3.1 Flash Live?

A:普通用户可以通过Gemini Live和Search Live(AI模式的功能)体验Gemini 3.1 Flash Live。开发者可以通过AI Studio、Gemini API和Gemini Enterprise for Customer Experience平台访问该模型来构建自己的应用。

来源:Arstechnica

0赞

好文章,需要你的鼓励

2026

03/27

15:37

分享

点赞

邮件订阅