Gemini 3.1 Flash Live登场：AI语音对话达到近似真人水平

谷歌发布新AI音频模型Gemini 3.1 Flash Live，专为实时对话设计。该模型语音生成速度更快，语调更自然，在多项基准测试中表现出色。为防止AI语音被冒充为真人声音，谷歌为输出内容添加了SynthID水印。目前已与家得宝、威瑞森等公司合作测试，并开始在Gemini Live等产品中推出。

谷歌推出了名为Gemini 3.1 Flash Live的新AI音频模型，该模型专为实时对话设计，今日开始在谷歌产品中推出，开发者也将能够利用该模型构建自己的对话机器人。

谷歌声称这款AI运行速度更快，语音节奏更加自然，旨在解决AI生成语音的长期问题。与聊天机器人类似，生成式音频系统在输入和输出之间总存在延迟。较长的延迟和不自然的语调使对话显得迟缓且难以跟进。研究人员普遍认为300毫秒的延迟是语音感知的最佳极限，但谷歌并未为Gemini 3.1 Flash Live指定具体的延迟时间，只是模糊地表示具备所需的速度。

在基准测试方面，谷歌提供了大量数据，声称这些数据显示3.1 Flash Live将成为进行音频对话的更可靠方式。例如，在ComplexFuncBench Audio测试中的显著提升表明新模型在复杂多步任务方面表现更佳。Gemini 3.1 Flash Live在Big Bench Audio测试中也名列前茅，该测试通过1000个音频问题评估推理能力。

同时，在Scale AI的Audio MultiChallenge测试中的出色表现意味着新Gemini模型更能应对音频输入中的犹豫和中断。尽管超越了其他实时音频模型，Gemini 3.1 Flash Live在此测试中仅获得36.1%的分数。非对话式设计的音频模型在MultiChallenge测试中可达到50%以上的分数。

总体而言，Gemini 3.1 Flash Live听起来更像真人，以至于谷歌认为是时候集成AI标识了。该模型的输出将带有SynthID水印，人类听众无法感知这些水印，但如果有人试图将Gemini AI语音冒充为真人语音，这些水印可以被检测出来。

谷歌已与家得宝、Verizon等公司合作测试该模型。在博客文章中，这些公司都对3.1 Flash Live模仿人类语音的能力给出了积极评价。因此，您在电话中遇到的下一个AI助手可能听起来更加逼真。也许您甚至会认为自己在与真人交谈，而SynthID在这种情况下无法提供帮助。

开发者现在可以通过AI Studio、Gemini API和Gemini Enterprise for Customer Experience访问该模型。后者本质上是智能体购物的工具包。Gemini 3.1 Flash Live将在Gemini Live和Search Live（AI模式的一个功能）中最显著地展现。这个新的对话AI从今天开始在这些产品中推出。

Q&A

Q1：Gemini 3.1 Flash Live相比其他AI语音模型有什么优势？

A：Gemini 3.1 Flash Live的主要优势是运行速度更快，语音节奏更自然，能够进行实时对话。在ComplexFuncBench Audio和Big Bench Audio等基准测试中表现优异，在处理复杂多步任务和推理能力方面超越了其他实时音频模型。

Q2：SynthID水印是什么？它如何防止AI语音被滥用？

A：SynthID是谷歌为Gemini 3.1 Flash Live输出添加的数字水印技术。这些水印人类听众无法感知，但可以通过技术手段检测出来，用于识别AI生成的语音，防止有人将AI语音冒充为真人语音。

Q3：普通用户如何体验Gemini 3.1 Flash Live？

A：普通用户可以通过Gemini Live和Search Live（AI模式的功能）体验Gemini 3.1 Flash Live。开发者可以通过AI Studio、Gemini API和Gemini Enterprise for Customer Experience平台访问该模型来构建自己的应用。

来源：Arstechnica

0赞

好文章，需要你的鼓励

Gemini 3.1 Flash Live登场：AI语音对话达到近似真人水平

来源：Arstechnica

2026

03/27

15:37

分享

点赞

Glean年收入突破3亿美元，削减AI成本成核心卖点

蓝色起源"新格伦"火箭在佛罗里达测试中发生爆炸

智能体AI正在重塑企业架构与Token经济学

堪培拉理工学院如何借助技术革新重塑课堂教学体验

Gemma 4携手Arm：优化端侧AI，加速移动应用体验

制药公司与初创企业如何携手推动AI落地

《星球大战》导演盛赞生成式AI：电影制作的革命性工具

Salesforce借助Informatica布局企业级无头数据管理架构

几乎所有M5 MacBook Air配置现在都降价近200美元

大模型评测风向变了，Testin云测如何构建企业级AI质量标尺？

因民事养老金管理失误，英国政府拒绝向Capita授予5.63亿英镑合同

YouTube提升AI生成视频标签的显示效果

AI恋爱建议比没有建议更有害

参议员提议对数据中心征税解决AI导致的就业损失问题

Gemini 3.1 Flash Live：让语音AI更自然可靠

NVIDIA GTC 2024展示虚拟世界驱动物理AI时代发展

AI驱动光学连接需求激增，OFC 2026聚焦高速网络基础设施

Arm改变策略，正式进军芯片制造业务

Veritone 携手 Oracle 云基础设施扩展 AI 数据管道

使用 AI 编写代码并不意味着代码更加安全

研究发现：阿谀奉承的AI可能损害人类判断力

惠普内部大规模应用AI后生产力提升显著

如果您非常迫切的想了解IT领域最新产品与技术信息，那么订阅至顶网技术邮件将是您的最佳途径之一

因湃电池 × 达索系统：如何共创出一套电池产业最佳实践

AI走进真实世界之后：安全、健康与产业的新命题

CES 2026

2025 re:Invent ：亚马逊云科技把Agentic AI生态梳理明白了

关注官方公众号

关注官方微博

关注官方喜马拉雅

友情链接

业界热点: