谷歌推出了名为Gemini 3.1 Flash Live的新AI音频模型,该模型专为实时对话设计,今日开始在谷歌产品中推出,开发者也将能够利用该模型构建自己的对话机器人。
谷歌声称这款AI运行速度更快,语音节奏更加自然,旨在解决AI生成语音的长期问题。与聊天机器人类似,生成式音频系统在输入和输出之间总存在延迟。较长的延迟和不自然的语调使对话显得迟缓且难以跟进。研究人员普遍认为300毫秒的延迟是语音感知的最佳极限,但谷歌并未为Gemini 3.1 Flash Live指定具体的延迟时间,只是模糊地表示具备所需的速度。
在基准测试方面,谷歌提供了大量数据,声称这些数据显示3.1 Flash Live将成为进行音频对话的更可靠方式。例如,在ComplexFuncBench Audio测试中的显著提升表明新模型在复杂多步任务方面表现更佳。Gemini 3.1 Flash Live在Big Bench Audio测试中也名列前茅,该测试通过1000个音频问题评估推理能力。
同时,在Scale AI的Audio MultiChallenge测试中的出色表现意味着新Gemini模型更能应对音频输入中的犹豫和中断。尽管超越了其他实时音频模型,Gemini 3.1 Flash Live在此测试中仅获得36.1%的分数。非对话式设计的音频模型在MultiChallenge测试中可达到50%以上的分数。
总体而言,Gemini 3.1 Flash Live听起来更像真人,以至于谷歌认为是时候集成AI标识了。该模型的输出将带有SynthID水印,人类听众无法感知这些水印,但如果有人试图将Gemini AI语音冒充为真人语音,这些水印可以被检测出来。
谷歌已与家得宝、Verizon等公司合作测试该模型。在博客文章中,这些公司都对3.1 Flash Live模仿人类语音的能力给出了积极评价。因此,您在电话中遇到的下一个AI助手可能听起来更加逼真。也许您甚至会认为自己在与真人交谈,而SynthID在这种情况下无法提供帮助。
开发者现在可以通过AI Studio、Gemini API和Gemini Enterprise for Customer Experience访问该模型。后者本质上是智能体购物的工具包。Gemini 3.1 Flash Live将在Gemini Live和Search Live(AI模式的一个功能)中最显著地展现。这个新的对话AI从今天开始在这些产品中推出。
Q&A
Q1:Gemini 3.1 Flash Live相比其他AI语音模型有什么优势?
A:Gemini 3.1 Flash Live的主要优势是运行速度更快,语音节奏更自然,能够进行实时对话。在ComplexFuncBench Audio和Big Bench Audio等基准测试中表现优异,在处理复杂多步任务和推理能力方面超越了其他实时音频模型。
Q2:SynthID水印是什么?它如何防止AI语音被滥用?
A:SynthID是谷歌为Gemini 3.1 Flash Live输出添加的数字水印技术。这些水印人类听众无法感知,但可以通过技术手段检测出来,用于识别AI生成的语音,防止有人将AI语音冒充为真人语音。
Q3:普通用户如何体验Gemini 3.1 Flash Live?
A:普通用户可以通过Gemini Live和Search Live(AI模式的功能)体验Gemini 3.1 Flash Live。开发者可以通过AI Studio、Gemini API和Gemini Enterprise for Customer Experience平台访问该模型来构建自己的应用。
好文章,需要你的鼓励
今天讲的出海案例是开创电气,一家金华手持式电动工具制造商,在越南基地完成首款产品验收并形成80万台年产能力。
JETSPEC是由UC San Diego等机构联合提出的推测解码框架,通过树形因果掩码让草稿头在一次前向传播中生成分支一致的候选树,在MATH-500上实现最高9.64倍端到端加速。
研究人员意外发现,标准MOSFET晶体管可同时模拟神经元和突触行为,形成"神经突触随机存取存储器"(NSRAM)。该技术仅需一至两个晶体管即可实现传统需数十乃至数百个元件才能完成的神经信号处理,且与现有硅基制造工艺完全兼容,良率达100%。未来有望应用于边缘AI及高能效神经形态芯片,长远或可挑战GPU地位。
本文介绍了中国科学院自动化所的研究,揭示了大型语言模型在多轮工具调用强化学习中崩溃的根本原因,并系统评估了五种监督信号对训练稳定性和泛化能力的影响。