Google与Cohere发布新一代音频AI模型

谷歌和Cohere今日发布了针对音频处理任务优化的新型人工智能模型。谷歌的Gemini 3.1 Flash Live可自动化客服交互，能检测用户情绪并调整响应，支持语音、图像等多模态输入。该模型在ComplexFuncBench Audio基准测试中得分90.8%，较前代提升近20%。Cohere Transcribe专注语音转录，平均词错率仅5.42%，在Hugging Face开放ASR排行榜位居第一，采用开源Apache 2.0许可证。

Google LLC和Cohere Inc.今日发布了专为音频处理任务优化的新人工智能模型。

这家搜索巨头的算法Gemini 3.1 Flash Live能够自动化客户服务交互。Cohere的新AI模型则专为语音转录而设计。两款模型的输出质量都比其前代产品有显著提升。

企业可使用Gemini 3.1 Flash Live构建语音智能体来处理客户服务电话。例如，零售商可以创建一个智能体来自动处理产品退货请求。Google表示，Gemini 3.1 Flash Live能够检测用户何时感到沮丧或困惑，并相应调整其回应。

该模型不仅理解语音，还能处理图像等其他输入。这意味着遇到智能家居设备故障的用户可以上传设备照片，帮助Gemini 3.1 Flash Live进行故障排除。此外，工具使用功能使模型能够从产品文档存储库等外部来源检索数据。

Google使用名为ComplexFuncBench Audio的基准测试评估了该AI的工具使用能力。Gemini 3.1 Flash Live得分90.8%，比公司前一代模型提升近20%。该模型在第二个音频基准Audio MultiChallenge上创造了新纪录。

自动化客户支持交互并非Gemini 3.1 Flash Live支持的唯一用例。开发者可以使用它为应用程序构建语音界面。此外，该模型还支撑着Google的Gemini聊天机器人和Search Live多模态搜索工具的语音功能。

Google产品经理Valeria Wu和软件工程师Yifan Ding在博客文章中写道："借助底层的3.1 Flash Live模型，Gemini Live相比前代模型提供更快的响应，并且能够跟踪对话线索的时间延长了一倍，在较长的头脑风暴中保持思路的连贯性。"

Cohere Transcribe专注于更窄的应用领域：它专为转录任务而构建。该公司表示，这一算法在同类产品中最为准确，平均词错误率为5.42%。这使其在名为Hugging Face Open ASR Leaderboard的音频模型排行榜上位居榜首。

新模型通过将原始音频转换为更易处理的数学表示来开始转录生成过程。这一任务由所谓的Conformer算法执行。Conformer结合了卷积神经网络（一种常用于音频处理任务的AI）和Transformer模型。

在将音频转换为数学表示后，Cohere Transcribe使用独立的Transformer生成转录文本。Cohere表示它能够输出十多种语言的文本。该模型在其Conformer和Transformer组件中总共有20亿参数，这意味着它运行时对计算能力的要求相对较低。

Cohere Transcribe采用开源Apache 2.0许可证。企业可以在自己的基础设施上运行它，也可以使用Cohere的Model Vault托管推理服务。该公司还计划将这一算法集成到其North生产力平台中，该平台允许员工搜索商业文档并自动化重复性任务。

Q&A

Q1：Gemini 3.1 Flash Live有什么主要功能？

A：Gemini 3.1 Flash Live可以自动化客户服务交互，构建语音智能体来处理客户服务电话。它能检测用户情绪并调整回应，理解语音和图像等多种输入，还能从外部数据源检索信息。在工具使用能力测试中得分90.8%，比前代模型提升近20%。

Q2：Cohere Transcribe的转录准确率如何？

A：Cohere Transcribe在同类产品中准确率最高，平均词错误率仅为5.42%，在Hugging Face Open ASR Leaderboard音频模型排行榜上位居榜首。它能够输出十多种语言的文本，总共有20亿参数，对计算能力要求相对较低。

Q3：这两款音频AI模型如何使用？

A：Gemini 3.1 Flash Live支撑Google的Gemini聊天机器人和Search Live工具的语音功能，开发者可用它构建应用程序的语音界面。Cohere Transcribe采用开源Apache 2.0许可证，企业可在自有基础设施上运行或使用Cohere的托管服务，还将集成到North生产力平台中。

来源：SiliconANGLE

0赞

好文章，需要你的鼓励

Google与Cohere发布新一代音频AI模型

来源：SiliconANGLE

2026

03/27

17:05

分享

点赞

Glean年收入突破3亿美元，削减AI成本成核心卖点

蓝色起源"新格伦"火箭在佛罗里达测试中发生爆炸

智能体AI正在重塑企业架构与Token经济学

堪培拉理工学院如何借助技术革新重塑课堂教学体验

Gemma 4携手Arm：优化端侧AI，加速移动应用体验

制药公司与初创企业如何携手推动AI落地

《星球大战》导演盛赞生成式AI：电影制作的革命性工具

Salesforce借助Informatica布局企业级无头数据管理架构

几乎所有M5 MacBook Air配置现在都降价近200美元

大模型评测风向变了，Testin云测如何构建企业级AI质量标尺？

因民事养老金管理失误，英国政府拒绝向Capita授予5.63亿英镑合同

YouTube提升AI生成视频标签的显示效果

Anthropic调整Claude使用限制以缓解高峰时段需求压力

苹果将允许第三方AI聊天机器人接入Siri

Google Gemini推出智能体数据迁移功能

JetBrains推出AI智能体管理平台Central

智能经济崛起，伙伴+华为如何抓住行业+AI的时代机遇？

Claude Code和Cowork现可控制用户电脑

JumpCloud统一IT管理平台助力企业治理影子AI使用

OpenAI无限期搁置成人版ChatGPT计划

Gemini 3.1 Flash Live登场：AI语音对话达到近似真人水平

AI恋爱建议比没有建议更有害

如果您非常迫切的想了解IT领域最新产品与技术信息，那么订阅至顶网技术邮件将是您的最佳途径之一

因湃电池 × 达索系统：如何共创出一套电池产业最佳实践

AI走进真实世界之后：安全、健康与产业的新命题

CES 2026

2025 re:Invent ：亚马逊云科技把Agentic AI生态梳理明白了

关注官方公众号

关注官方微博

关注官方喜马拉雅

友情链接

业界热点: