谷歌推出了名为Gemini 3.1 Flash Live的新AI音频模型,该模型专为实时对话设计,今日开始在谷歌产品中推出,开发者也将能够利用该模型构建自己的对话机器人。
谷歌声称这款AI运行速度更快,语音节奏更加自然,旨在解决AI生成语音的长期问题。与聊天机器人类似,生成式音频系统在输入和输出之间总存在延迟。较长的延迟和不自然的语调使对话显得迟缓且难以跟进。研究人员普遍认为300毫秒的延迟是语音感知的最佳极限,但谷歌并未为Gemini 3.1 Flash Live指定具体的延迟时间,只是模糊地表示具备所需的速度。
在基准测试方面,谷歌提供了大量数据,声称这些数据显示3.1 Flash Live将成为进行音频对话的更可靠方式。例如,在ComplexFuncBench Audio测试中的显著提升表明新模型在复杂多步任务方面表现更佳。Gemini 3.1 Flash Live在Big Bench Audio测试中也名列前茅,该测试通过1000个音频问题评估推理能力。
同时,在Scale AI的Audio MultiChallenge测试中的出色表现意味着新Gemini模型更能应对音频输入中的犹豫和中断。尽管超越了其他实时音频模型,Gemini 3.1 Flash Live在此测试中仅获得36.1%的分数。非对话式设计的音频模型在MultiChallenge测试中可达到50%以上的分数。
总体而言,Gemini 3.1 Flash Live听起来更像真人,以至于谷歌认为是时候集成AI标识了。该模型的输出将带有SynthID水印,人类听众无法感知这些水印,但如果有人试图将Gemini AI语音冒充为真人语音,这些水印可以被检测出来。
谷歌已与家得宝、Verizon等公司合作测试该模型。在博客文章中,这些公司都对3.1 Flash Live模仿人类语音的能力给出了积极评价。因此,您在电话中遇到的下一个AI助手可能听起来更加逼真。也许您甚至会认为自己在与真人交谈,而SynthID在这种情况下无法提供帮助。
开发者现在可以通过AI Studio、Gemini API和Gemini Enterprise for Customer Experience访问该模型。后者本质上是智能体购物的工具包。Gemini 3.1 Flash Live将在Gemini Live和Search Live(AI模式的一个功能)中最显著地展现。这个新的对话AI从今天开始在这些产品中推出。
Q&A
Q1:Gemini 3.1 Flash Live相比其他AI语音模型有什么优势?
A:Gemini 3.1 Flash Live的主要优势是运行速度更快,语音节奏更自然,能够进行实时对话。在ComplexFuncBench Audio和Big Bench Audio等基准测试中表现优异,在处理复杂多步任务和推理能力方面超越了其他实时音频模型。
Q2:SynthID水印是什么?它如何防止AI语音被滥用?
A:SynthID是谷歌为Gemini 3.1 Flash Live输出添加的数字水印技术。这些水印人类听众无法感知,但可以通过技术手段检测出来,用于识别AI生成的语音,防止有人将AI语音冒充为真人语音。
Q3:普通用户如何体验Gemini 3.1 Flash Live?
A:普通用户可以通过Gemini Live和Search Live(AI模式的功能)体验Gemini 3.1 Flash Live。开发者可以通过AI Studio、Gemini API和Gemini Enterprise for Customer Experience平台访问该模型来构建自己的应用。
好文章,需要你的鼓励
企业AI搜索公司Glean宣布年度经常性收入(ARR)达3亿美元,较15个月前的1亿美元增长三倍。尽管谷歌、微软、OpenAI等科技巨头纷纷入局企业AI搜索市场,Glean凭借"上下文图谱"技术深度理解企业业务需求,并帮助客户显著降低AI计算成本。该公司提供按用量计费和混合定价两种模式,客户涵盖Databricks、Reddit、Pinterest及三星等企业。Glean上轮融资后估值达72亿美元。
香港中文大学与MiniMax提出ClaimDiff-RL框架,将图像描述的AI训练从整体打分升级为逐条核查,有效解决了传统方式导致AI"少说保平安"的问题,同时在多项基准测试上超越Gemini-3-Pro-Preview。
杰夫·贝索斯旗下的蓝色起源公司在佛罗里达卡纳维拉尔角进行静态点火测试时,新格伦重型火箭发生爆炸。这是美国历史上最大规模的火箭爆炸之一,也是蓝色起源公司遭遇的最严重失败。所有人员安全,但该事故可能导致新格伦火箭项目长期暂停。此前该火箭已成功完成三次发射,并实现了助推器回收和重复使用。
ParaVT是一个由南洋理工等多校联合提出的并行视频工具调用框架,通过让AI同时分析多段视频并引入PARA-GRPO算法解决训练中的格式崩溃与工具跳过问题,在六项长视频理解测试中平均提升约7.9%。