Amazon Nova Sonic AI 不只是听懂你说什么，还能理解你的语气

亚马逊推出了一款名为 Nova Sonic 的 AI 语音模型，它不仅能理解语音内容，还能捕捉说话者的语气、犹豫等细微变化。这个模型整合了语音识别、回复生成和语音合成功能，能够实现更自然的对话交互。Nova Sonic 可以根据说话者的语气调整回应，理解对话中的停顿，并能适当处理打断等情况，从而提供更智能、更人性化的语音交互体验。

Amazon 推出了一个新的基础模型，该模型不仅能理解你在说什么，还能理解你是如何表达的，包括语气、犹豫等细节。

Amazon Nova Sonic 是 Nova 系列基础模型家族的最新成员，该系列首次于 2024 年 12 月推出。它可以接受语音输入并实时生成语音响应，同时为开发者生成文字记录。

传统的基于语音的 AI 应用通常需要将三个独立的模型组合在一起：语音识别模型、响应生成模型和语音合成模型。Amazon 声称 Nova Sonic 将这些功能统一到了单个模型中。

Amazon 在其公告中表示："这种统一使模型能够根据声学环境 (如语气、风格) 和语音输入来调整生成的语音响应，从而实现更自然的对话。Nova Sonic 甚至能理解人类对话的细微差别，包括说话者的自然停顿和犹豫，在适当的时机开始说话，并能优雅地处理打断情况。"

该电商巨头发布了一段示例音频，展示了这种场景的应用。在录音中，一个 AI 旅行助手在处理客户预订行程时，察觉到客户语气中对机票价格的担忧后，随即采用了令人安心的语气进行回应。

Amazon 的高级机器学习解决方案架构师 Osman Ipek 在一段视频中解释道："Amazon Nova Sonic 不仅理解你说什么，还理解你是如何说的。因此它会调整回应以匹配你的沟通方式。如果你兴奋地说话，Nova Sonic 的回应也会带着相似的热情。如果你采用严肃的语气，它会通过识别音调和情感等韵律元素相应地调整。它创造了真正的会话式互动。"

Nova Sonic 通过 Amazon Bedrock 的双向流式 API 提供服务，"能够理解各种说话风格的流式语音，并生成富有表现力的语音响应，动态适应输入语音的韵律。"

从本质上说，该模型可以调节其语音，在被打断时会暂停然后恢复，这使得对话流程更加自然。

API 代码可以与基于分析的情感分析相关联。但模型的大部分语气变化预计将由大语言模型提示驱动。

Nova Sonic 模型不提供语音控制参数的直接访问。相反，用户通过系统提示来指导模型应采用的语气。例如：

你是一个朋友。你和用户将进行实时对话交流。保持简短的回应，在闲聊场景中通常用两到三句话。你可以在句子开头使用方括号表示情绪，如 [愉快]、[中性] 或其他表演指示如 [欢快]。每个表演指示仅使用一对方括号。

Nova Sonic 支持 32K tokens 的音频上下文窗口，默认连接限制为 8 分钟，可以续期以继续更长时间的对话。它可以通过检索增强生成 (RAG) 与企业系统对接，支持函数调用和面向代理的工作流，可以在其支持的语言中使用各种说话风格 - 目前仅支持美式和英式英语。

IT 咨询公司 Gartner 在 4 月发布了一份题为"对话式 AI 解决方案市场指南"的报告。该公司发现，"在众多面向客户和员工的使用场景中，对 [对话式 AI] 功能的需求正在增加。然而，在这个快速发展的市场中，领导者们发现很难分辨哪些解决方案最能满足他们的需求。"

Gartner 预计对话式 AI 市场规模将从 2023 年的 82 亿美元增长到 2032 年的 360 亿美元。

来源：The Register

0赞

好文章，需要你的鼓励

Amazon Nova Sonic AI 不只是听懂你说什么，还能理解你的语气

来源：The Register

2025

04/11

16:39

分享

点赞

特斯拉疑似删除FSD证据，卡特彼勒加速电动化布局，高压系统技术培训刻不容缓

智能体网络流量首超真人访问，"死亡互联网"理论引发新争议

Mentium Technologies Luna-R1 AI芯片入选ET-01星座任务，完成多星部署里程碑

汤道生×姚顺雨：腾讯AI下半场，拼的是“模型×产品”系统能力

AI驱动网络犯罪数量飙升，勒索软件受害者年增389%：Fortinet 发布2026年全球威胁态势研究报告

Inbolt将在Automate展会发布视觉驱动机器人编程新功能

笔记本电脑深度清洁指南：内外兼修焕然一新

加利福尼亚州城市通过全美首个由选民投票决定的数据中心禁令

柴油替代方案：AI数据中心如何利用燃气引擎与蒸汽涡轮供电

AI定义汽车时代，车载以太网可靠性面临全新挑战

安全算法的持续更新正变得愈发困难

轨道数据中心本质上是功能强化的卫星

ChatGPT 更新支持回溯历史对话功能

AI、混合云和多云：云基础设施下一个重大飞跃的驱动力 - 来自 Google Cloud Next 的见解

Shopify 内部备忘录泄露揭示其激进的 AI 发展路线

WordPress.com 推出免费的 AI 网站构建器

大型机在 AI 时代是否仍有一席之地？

Gemini 和 Veo AI 模型将整合在一起，DeepMind CEO Demis Hassabis 宣布

ChatGPT 获得记忆增强升级，让对话体验更进一步

AI 推理模型的兴起使基准测试成本大幅提升

Google 推出企业级 AI 智能体开发套件，助力快速原型开发和部署

Google 推出性能更快、更高效的 Gemini AI 模型

如果您非常迫切的想了解IT领域最新产品与技术信息，那么订阅至顶网技术邮件将是您的最佳途径之一

因湃电池 × 达索系统：如何共创出一套电池产业最佳实践

AI走进真实世界之后：安全、健康与产业的新命题

CES 2026

2025 re:Invent ：亚马逊云科技把Agentic AI生态梳理明白了

关注官方公众号

关注官方微博

关注官方喜马拉雅

友情链接

业界热点: