谷歌推出了名为Gemini 3.1 Flash Live的新AI音频模型,该模型专为实时对话设计,今日开始在谷歌产品中推出,开发者也将能够利用该模型构建自己的对话机器人。
谷歌声称这款AI运行速度更快,语音节奏更加自然,旨在解决AI生成语音的长期问题。与聊天机器人类似,生成式音频系统在输入和输出之间总存在延迟。较长的延迟和不自然的语调使对话显得迟缓且难以跟进。研究人员普遍认为300毫秒的延迟是语音感知的最佳极限,但谷歌并未为Gemini 3.1 Flash Live指定具体的延迟时间,只是模糊地表示具备所需的速度。
在基准测试方面,谷歌提供了大量数据,声称这些数据显示3.1 Flash Live将成为进行音频对话的更可靠方式。例如,在ComplexFuncBench Audio测试中的显著提升表明新模型在复杂多步任务方面表现更佳。Gemini 3.1 Flash Live在Big Bench Audio测试中也名列前茅,该测试通过1000个音频问题评估推理能力。
同时,在Scale AI的Audio MultiChallenge测试中的出色表现意味着新Gemini模型更能应对音频输入中的犹豫和中断。尽管超越了其他实时音频模型,Gemini 3.1 Flash Live在此测试中仅获得36.1%的分数。非对话式设计的音频模型在MultiChallenge测试中可达到50%以上的分数。
总体而言,Gemini 3.1 Flash Live听起来更像真人,以至于谷歌认为是时候集成AI标识了。该模型的输出将带有SynthID水印,人类听众无法感知这些水印,但如果有人试图将Gemini AI语音冒充为真人语音,这些水印可以被检测出来。
谷歌已与家得宝、Verizon等公司合作测试该模型。在博客文章中,这些公司都对3.1 Flash Live模仿人类语音的能力给出了积极评价。因此,您在电话中遇到的下一个AI助手可能听起来更加逼真。也许您甚至会认为自己在与真人交谈,而SynthID在这种情况下无法提供帮助。
开发者现在可以通过AI Studio、Gemini API和Gemini Enterprise for Customer Experience访问该模型。后者本质上是智能体购物的工具包。Gemini 3.1 Flash Live将在Gemini Live和Search Live(AI模式的一个功能)中最显著地展现。这个新的对话AI从今天开始在这些产品中推出。
Q&A
Q1:Gemini 3.1 Flash Live相比其他AI语音模型有什么优势?
A:Gemini 3.1 Flash Live的主要优势是运行速度更快,语音节奏更自然,能够进行实时对话。在ComplexFuncBench Audio和Big Bench Audio等基准测试中表现优异,在处理复杂多步任务和推理能力方面超越了其他实时音频模型。
Q2:SynthID水印是什么?它如何防止AI语音被滥用?
A:SynthID是谷歌为Gemini 3.1 Flash Live输出添加的数字水印技术。这些水印人类听众无法感知,但可以通过技术手段检测出来,用于识别AI生成的语音,防止有人将AI语音冒充为真人语音。
Q3:普通用户如何体验Gemini 3.1 Flash Live?
A:普通用户可以通过Gemini Live和Search Live(AI模式的功能)体验Gemini 3.1 Flash Live。开发者可以通过AI Studio、Gemini API和Gemini Enterprise for Customer Experience平台访问该模型来构建自己的应用。
好文章,需要你的鼓励
Replit与RevenueCat达成合作,将订阅变现工具直接集成至Replit平台。用户只需通过自然语言提示(如"添加订阅"),即可完成应用内购和订阅配置,无需离开平台。RevenueCat管理超8万款应用的订阅业务,每月处理约10亿美元交易。此次合作旨在让"氛围编程"用户在构建应用的同时即可实现商业变现,月收入未达2500美元前免费使用,超出后收取1%费用。
LiVER是由北京大学、北京邮电大学等机构联合提出的视频生成框架,核心创新是将物理渲染技术与AI视频生成结合,通过Blender引擎计算漫反射、粗糙GGX和光泽GGX三种光照图像构成"场景代理",引导视频扩散模型生成光影物理准确的视频。框架包含渲染器智能体、轻量化编码器适配器和三阶段训练策略,支持对光照、场景布局和摄像机轨迹的独立精确控制。配套构建的LiVERSet数据集含约11000段标注视频,实验显示该方法在视频质量和控制精度上均优于现有方法。
所有人都说AI需要护栏,但真正在构建它的人寥寥无几。SkipLabs创始人Julien Verlaguet深耕这一问题已逾一年,他发现市面上多数"护栏"不过是提示词包装。为此,他打造了专为后端服务设计的AI编程智能体Skipper,基于健全的TypeScript类型系统与响应式运行时,实现增量式代码生成与测试,内部基准测试通过率超90%。他认为,编程语言的"人类可读性时代"正走向终结,面向智能体的精确工具链才是未来。
这项由蒙特利尔学习算法研究所(Mila)与麦吉尔大学联合发布的研究(arXiv:2604.07776,2026年4月)提出了AGENT-AS-ANNOTATORS框架,通过模仿人类数据标注的三种角色分工,系统化生成高质量网页智能体训练轨迹。以Gemini 3 Pro为教师模型,仅用2322条精选轨迹对90亿参数的Qwen3.5-9B模型进行监督微调,在WebArena基准上达到41.5%成功率,超越GPT-4o和Claude 3.5 Sonnet,并在从未见过的企业平台WorkArena L1上提升18.2个百分点,验证了"数据质量远比数量重要"这一核心结论。