亚马逊作为电子商务巨头广为人知,而其 Alexa AI 语音助手产品则可能排在其知名产品清单的稍后位置。上个月,Alexa 在 Amazon Nova 和亚马逊投资的 Anthropic 的帮助下获得了重大智能升级。
现在,Alexa 将迎来一位新的亚马逊语音 AI 兄弟:今天,该公司推出了 Amazon Nova Sonic,这是一个新的基础模型,旨在让第三方应用开发者通过亚马逊的 Bedrock 网络平台为其产品构建实时、自然、对话式的语音交互功能。
Nova Sonic 现已通过双向流式应用程序接口 (API) 提供服务。实际上,亚马逊已经将其部分功能——提供表征的语音编码器和语音合成器——整合到了新的 Alexa 模型 Alexa+ 中。
"这种方法使我们能够同时将语音技术的优势应用于不同的使用场景,同时基于客户反馈和技术进步继续发展这两个系统,"一位发言人告诉我们。
显而易见的应用场景包括客户支持和服务、指导、信息检索和娱乐。
统一的方法
Nova Sonic 解决了语音 AI 中的一个关键挑战:技术的碎片化。
亚马逊人工通用智能 (AGI) 高级副总裁兼首席科学家 Rohit Prasad 昨天在通过亚马逊 Chime 视频服务与 VentureBeat 的视频通话采访中表示,传统上,构建语音界面需要结合语音识别、语言处理和语音合成的独立模型。
这种复杂性通常导致机械、不自然的交互以及增加开发成本。
现在,Sonic 试图通过将这三种不同类型的模型合并为一个整体来改进这种状况。
Prasad 解释了该模型的核心创新:"Nova Sonic 将传统上分离的三个模型——语音转文本、文本理解和文本转语音——整合为一个统一系统,不仅能模拟交流的'内容',还能模拟交流的'方式'。"
通过保留声学上下文——如语调、节奏和风格——Nova Sonic 有助于保持人类对话的细微差别。
识别实时双向音频对话的复杂性和特点
Nova Sonic 的一个显著能力是处理实时双向对话。它能识别用户何时停顿、犹豫或打断——这些都是人类语音中常见的行为——并能流畅地响应同时保持上下文。
"这里的真正突破是实时、互动、低延迟的语音交互,这意味着你可以在 AI 说话中途打断它,它仍然能保持上下文并做出连贯回应,"Prasad 说。这一特性在客户服务等场景中尤为重要,因为响应性和适应性至关重要。
内置工具使用和工作流集成
Nova Sonic 还设计为与其他系统无缝集成。它自动生成口头输入的转录,可用于触发 API 或与专有工具交互。这使公司能够构建 AI 代理,执行预约、检索实时信息或回答复杂客户查询等任务。
"你可以通过 Amazon Bedrock 使用 Nova Sonic,并将其与任何工具或专有数据源连接,甚至是视觉数据源,只要它们被包装为可调用的 API,"Prasad 说。这种灵活性使该模型适用于广泛的行业,从教育和旅游到企业运营和娱乐。
基准性能和行业比较
Nova Sonic 已与其他实时语音模型进行了基准测试,包括 OpenAI 的 GPT-4o 和 Google 的 Gemini Flash 2.0。在 Common Eval 数据集上,使用男性声音的美式英语单轮对话,它对 Gemini Flash 2.0 的胜率达到 69.7%,对 GPT-4o 的胜率达到 51.0%。女性声音和英式英语声音也有类似的优势。
Prasad 强调了 Nova Sonic 在其主要语言市场的强劲表现:"Nova Sonic 目前在美式和英式英语方面是同类最佳,在对话自然度和准确性方面甚至超过了 GPT-4o 实时版。"他补充道,"据我们所知,只有两个其他模型——GPT-4o 实时版和 GPT-4o mini 的一个变体——在实时结合语音理解和生成方面接近 Nova Sonic 的水平。这个领域仍然非常早期且非常困难。"
多语言能力和噪声环境处理
在语音识别方面,Nova Sonic 在多语言和真实环境条件下也表现出色。在多语言 LibriSpeech 基准测试中,它的词错误率 (WER) 为 4.2%,在英语、法语、德语、意大利语和西班牙语方面比 GPT-4o Transcribe 高出 36% 以上。在嘈杂的多说话人环境中(使用 AMI 基准测量),Nova Sonic 的 WER 比 GPT-4o Transcribe 改进了 46.7%。
表现力丰富的声音和语言扩展
目前,该模型支持多种表现力丰富的声音,包括美式和英式英语的男性和女性声音。亚马逊表示,其他口音和语言正在开发中,将在未来更新中发布。
低延迟和企业友好的成本
速度和成本也是其吸引力的一部分。第三方基准测试显示,Nova Sonic 的客户感知延迟为 1.09 秒,而 OpenAI 的 GPT-4o 为 1.18 秒,Google 的 Gemini Flash 2.0 为 1.41 秒。
从定价角度看,亚马逊将 Nova Sonic 定位为企业级解决方案。"我们比 GPT-4o 实时版便宜近 80%,这种优越的性价比正在引起从实验转向部署的企业的共鸣,"Prasad 说。
各行业的早期采用
据亚马逊称,不同行业的公司已经开始使用或测试 Nova Sonic。
ASAPP 正在应用该技术优化联络中心工作流程,称赞其准确性和自然对话处理能力。
Education First (EF) 使用该模型为语言学习者提供实时发音反馈,特别是对于具有不同口音的非母语人士。
体育数据提供商 Stats Perform 正利用 Nova Sonic 的低延迟和简单设置为其 Opta AI Chat 平台提供快速、数据丰富的交互。
负责任的 AI 和安全承诺
除了性能和成本外,亚马逊还强调其对负责任 AI 开发的承诺。Nova 系列模型包含内置安全保障,并由 AWS AI 服务卡支持,这些服务卡概述了预期用例、潜在限制和道德准则。
Prasad 强调了亚马逊对信任和安全的关注:"信任对我们至关重要——开发者可以在限制范围内定制个性,但我们设置了强大的护栏来防止语音克隆或不必要的模仿。"他补充道,"我们非常努力地消除幻觉和语音漂移。我们为发布设定的标准很高,因为语音生成必须值得信赖。"
Amazon Nova Sonic 现已通过 Amazon Bedrock 全面上市。有兴趣探索该模型的开发者和企业可以访问 https://aws.amazon.com/nova/ 开始使用。
好文章,需要你的鼓励
是德科技高级副总裁兼通信解决方案事业部总裁Kailash Narayanan现场指出,算力固然重要,但如果能耗过高,技术的实用性将大打折扣,因此,所有的高速、高性能计算,都必须在极低的功耗下实现,这是AI等技术能否大规模落地的核心前提。
DeepSeek-AI团队通过创新的软硬件协同设计,仅用2048张GPU训练出性能卓越的DeepSeek-V3大语言模型,挑战了AI训练需要海量资源的传统观念。该研究采用多头潜在注意力、专家混合架构、FP8低精度训练等技术,大幅提升内存效率和计算性能,为AI技术的民主化和可持续发展提供了新思路。
来自上海交通大学和浙江大学等机构的研究团队开发出首个AI"记忆操作系统"MemOS,解决了AI系统无法实现人类般持久记忆和学习的根本限制。该系统将记忆视为核心计算资源进行调度、共享和演化,在时间推理任务中相比OpenAI记忆系统性能提升159%。MemOS采用三层架构设计,通过标准化记忆单元实现跨平台记忆迁移,有望改变企业AI部署模式。
加拿大女王大学研究团队首次系统评估了大型视频语言模型的因果推理能力,发现即使最先进的AI在理解视频中事件因果关系方面表现极差,大多数模型准确率甚至低于随机猜测。研究创建了全球首个视频因果推理基准VCRBench,并提出了识别-推理分解法(RRD),通过任务分解显著提升了AI性能,最高改善幅度达25.2%。