亚马逊作为电子商务巨头广为人知,而其 Alexa AI 语音助手产品则可能排在其知名产品清单的稍后位置。上个月,Alexa 在 Amazon Nova 和亚马逊投资的 Anthropic 的帮助下获得了重大智能升级。
现在,Alexa 将迎来一位新的亚马逊语音 AI 兄弟:今天,该公司推出了 Amazon Nova Sonic,这是一个新的基础模型,旨在让第三方应用开发者通过亚马逊的 Bedrock 网络平台为其产品构建实时、自然、对话式的语音交互功能。
Nova Sonic 现已通过双向流式应用程序接口 (API) 提供服务。实际上,亚马逊已经将其部分功能——提供表征的语音编码器和语音合成器——整合到了新的 Alexa 模型 Alexa+ 中。
"这种方法使我们能够同时将语音技术的优势应用于不同的使用场景,同时基于客户反馈和技术进步继续发展这两个系统,"一位发言人告诉我们。
显而易见的应用场景包括客户支持和服务、指导、信息检索和娱乐。
统一的方法
Nova Sonic 解决了语音 AI 中的一个关键挑战:技术的碎片化。
亚马逊人工通用智能 (AGI) 高级副总裁兼首席科学家 Rohit Prasad 昨天在通过亚马逊 Chime 视频服务与 VentureBeat 的视频通话采访中表示,传统上,构建语音界面需要结合语音识别、语言处理和语音合成的独立模型。
这种复杂性通常导致机械、不自然的交互以及增加开发成本。
现在,Sonic 试图通过将这三种不同类型的模型合并为一个整体来改进这种状况。
Prasad 解释了该模型的核心创新:"Nova Sonic 将传统上分离的三个模型——语音转文本、文本理解和文本转语音——整合为一个统一系统,不仅能模拟交流的'内容',还能模拟交流的'方式'。"
通过保留声学上下文——如语调、节奏和风格——Nova Sonic 有助于保持人类对话的细微差别。
识别实时双向音频对话的复杂性和特点
Nova Sonic 的一个显著能力是处理实时双向对话。它能识别用户何时停顿、犹豫或打断——这些都是人类语音中常见的行为——并能流畅地响应同时保持上下文。
"这里的真正突破是实时、互动、低延迟的语音交互,这意味着你可以在 AI 说话中途打断它,它仍然能保持上下文并做出连贯回应,"Prasad 说。这一特性在客户服务等场景中尤为重要,因为响应性和适应性至关重要。
内置工具使用和工作流集成
Nova Sonic 还设计为与其他系统无缝集成。它自动生成口头输入的转录,可用于触发 API 或与专有工具交互。这使公司能够构建 AI 代理,执行预约、检索实时信息或回答复杂客户查询等任务。
"你可以通过 Amazon Bedrock 使用 Nova Sonic,并将其与任何工具或专有数据源连接,甚至是视觉数据源,只要它们被包装为可调用的 API,"Prasad 说。这种灵活性使该模型适用于广泛的行业,从教育和旅游到企业运营和娱乐。
基准性能和行业比较
Nova Sonic 已与其他实时语音模型进行了基准测试,包括 OpenAI 的 GPT-4o 和 Google 的 Gemini Flash 2.0。在 Common Eval 数据集上,使用男性声音的美式英语单轮对话,它对 Gemini Flash 2.0 的胜率达到 69.7%,对 GPT-4o 的胜率达到 51.0%。女性声音和英式英语声音也有类似的优势。
Prasad 强调了 Nova Sonic 在其主要语言市场的强劲表现:"Nova Sonic 目前在美式和英式英语方面是同类最佳,在对话自然度和准确性方面甚至超过了 GPT-4o 实时版。"他补充道,"据我们所知,只有两个其他模型——GPT-4o 实时版和 GPT-4o mini 的一个变体——在实时结合语音理解和生成方面接近 Nova Sonic 的水平。这个领域仍然非常早期且非常困难。"
多语言能力和噪声环境处理
在语音识别方面,Nova Sonic 在多语言和真实环境条件下也表现出色。在多语言 LibriSpeech 基准测试中,它的词错误率 (WER) 为 4.2%,在英语、法语、德语、意大利语和西班牙语方面比 GPT-4o Transcribe 高出 36% 以上。在嘈杂的多说话人环境中(使用 AMI 基准测量),Nova Sonic 的 WER 比 GPT-4o Transcribe 改进了 46.7%。
表现力丰富的声音和语言扩展
目前,该模型支持多种表现力丰富的声音,包括美式和英式英语的男性和女性声音。亚马逊表示,其他口音和语言正在开发中,将在未来更新中发布。
低延迟和企业友好的成本
速度和成本也是其吸引力的一部分。第三方基准测试显示,Nova Sonic 的客户感知延迟为 1.09 秒,而 OpenAI 的 GPT-4o 为 1.18 秒,Google 的 Gemini Flash 2.0 为 1.41 秒。
从定价角度看,亚马逊将 Nova Sonic 定位为企业级解决方案。"我们比 GPT-4o 实时版便宜近 80%,这种优越的性价比正在引起从实验转向部署的企业的共鸣,"Prasad 说。
各行业的早期采用
据亚马逊称,不同行业的公司已经开始使用或测试 Nova Sonic。
ASAPP 正在应用该技术优化联络中心工作流程,称赞其准确性和自然对话处理能力。
Education First (EF) 使用该模型为语言学习者提供实时发音反馈,特别是对于具有不同口音的非母语人士。
体育数据提供商 Stats Perform 正利用 Nova Sonic 的低延迟和简单设置为其 Opta AI Chat 平台提供快速、数据丰富的交互。
负责任的 AI 和安全承诺
除了性能和成本外,亚马逊还强调其对负责任 AI 开发的承诺。Nova 系列模型包含内置安全保障,并由 AWS AI 服务卡支持,这些服务卡概述了预期用例、潜在限制和道德准则。
Prasad 强调了亚马逊对信任和安全的关注:"信任对我们至关重要——开发者可以在限制范围内定制个性,但我们设置了强大的护栏来防止语音克隆或不必要的模仿。"他补充道,"我们非常努力地消除幻觉和语音漂移。我们为发布设定的标准很高,因为语音生成必须值得信赖。"
Amazon Nova Sonic 现已通过 Amazon Bedrock 全面上市。有兴趣探索该模型的开发者和企业可以访问 https://aws.amazon.com/nova/ 开始使用。
好文章,需要你的鼓励
来自耶路撒冷希伯来大学的研究团队开发了WHISTRESS,一种创新的无需对齐的句子重音检测方法,能够识别说话者在语音中强调的关键词语。研究者基于Whisper模型增加了重音检测组件,并创建了TINYSTRESS-15K合成数据集用于训练。实验表明,WHISTRESS在多个基准测试中表现优异,甚至展示了强大的零样本泛化能力。这项技术使语音识别系统不仅能理解"说了什么",还能捕捉"如何说"的细微差别,为人机交互带来更自然的体验。
这项研究提出了"力量提示"方法,使视频生成模型能够响应物理力控制信号。研究团队来自布朗大学和谷歌DeepMind,他们通过设计两种力提示——局部点力和全局风力,让模型生成符合物理规律的视频。惊人的是,尽管仅使用约15,000个合成训练样本,模型展现出卓越的泛化能力,能够处理不同材质、几何形状和环境下的力学交互。研究还发现模型具有初步的质量理解能力,相同力量对不同质量物体产生不同影响。这一突破为交互式视频生成和直观世界模型提供了新方向。
北京交通大学与西蒙弗雷泽大学联合研发的混合神经-MPM方法实现了实时交互式流体模拟。该方法巧妙结合神经物理学与传统数值求解器,在低时空分辨率下运行神经网络并设置保障机制自动切换到MPM,显著降低计算延迟同时保持高保真度。团队还设计了基于扩散模型的控制器,支持用户通过简单草图直观控制流体行为,为游戏、VR和设计领域提供了实用解决方案。
这项研究介绍了EgoZero,一种创新的机器人学习系统,能够仅通过Project Aria智能眼镜捕获的人类示范数据,训练出零样本迁移的机器人操作策略。研究团队提出了一种形态无关的状态-动作表示方法,使用点集来统一人类和机器人数据,并开发了从原始视觉输入中提取准确3D表示的技术。在没有任何机器人训练数据的情况下,EgoZero在7种真实世界操作任务上实现了70%的成功率,展示了强大的泛化能力,为解决机器人学习中的数据瓶颈问题提供了新思路。