Azure Neural TTS能让AI语音自然逼真到什么程度？

Neural TTS（神经网络文本转语音）是微软Azure认知服务的强大语音合成功能，自推出以来，已被广泛应用于从语音助手、新闻阅读到有声读物创作等多种场景。

摘要：微软Azure Neural TTS让AI语音像真人一样富有感情，自然逼真。

Neural TTS（神经网络文本转语音）是微软Azure认知服务的强大语音合成功能，自推出以来，已被广泛应用于从语音助手、新闻阅读到有声读物创作等多种场景。同时，越来越多的用户希望它也可以支持到更多日常的对话场景，拥有更加富有情感和自然逼真的拟人效果。如今，这一愿望已经得到实现——通过对Neural TTS多个方面的升级，它所合成的声音已经能够良好适应日常对话场景。

不同对话场景，用户期待不同语气的拟人AI语音

TTS语音已被越来越多地用于支持人机对话或机器辅助的日常交流——例如人与人之间对话的同声传译。在这些场景中，人们普遍期待能够实现更自然、更口语化的对话风格。我们不妨从以下三个典型场景中，来理解用户对于对话声音和风格的不同需求。

客服机器人：语气要自然、友好且专业

很多企业正在使用支持语音的聊天机器人或IVR（互动式语音应答）系统，为客户带来相比传统方式更为高效、体贴的客户服务。例如国际移动通讯网络公司沃达丰就成功地创建了一个拥有自然语音的客服机器人TOBi。Azure的人工智能和自然语言处理功能赋予了TOBi鲜明的个性，使客户与TOBi之间的人机对话变得轻松自然，让客户更乐于与之交流。

设想这样的情景：在客户对TOBi报出姓名后，当TOBi需要了解客户的地址以便提供进一步服务时，Tobi并不会生硬地接着发问：“请说出您的地址。”而是会这样表达：“嘿，好名字！接下来我还需要了解一下您住在哪里？”此时此刻，客户一定希望AI能够以听起来热情、友好、温暖，且又专业的声音来说出这句话。类似的需求不仅体现在AI解答客户疑问时，还适用于AI语音向客户打招呼，或表达共情态度时。

个人助理：表情符号、重点强调要读懂

随着虚拟助手和虚拟现实技术的兴起，使用Neural TTS来支持闲聊和日常对话功能的客户数量正在不断增加。想要让AI与人类的对话更加自然，最主要的挑战之一在于如何让AI理解包含特殊字符在内的聊天用语——比如“呵呵”、“哈哈”、“哎哟”这类词汇， Azure Neural TTS能让AI语音自然逼真到什么程度？这类表情符号，还有重复字母如“soooo good”——然后再以自然的语气提供即时响应。此外，让AI能使用不同的信息来表达相应情感，从而表现出对人类感受的共鸣感，也正在成为一种越来越普遍的用户需求。

同声传译：翻译前后说话风格、语气要一致

语音互译是又一个对话式AI语音可支持的典型场景。Azure Neural TTS已覆盖110多种不同语言，被应用于多种翻译场景中。不过，如何在翻译的同时保持讲话者的原始语气风格，一直都是个挑战。尤其是在较为随意的对话场景中，讲话者往往会使用语气上的细微差别来与听众建立情感联系。在这种情况下，如果AI语音可在提供同步翻译的同时，又能捕捉并理解讲话者的风格，就能使不同语言之间的对话依然生动且具有吸引力。

Azure Neural TTS进化：多国语言皆可栩栩如生、“以假乱真”

Sara（英语）：更能表现自然情感的聊天机器人语音

Sara是一个新近推出的美式英语音色，尤其擅长轻松的对话。“她”有着轻松自然的年轻女性声线，能够胜任各种需要聊天机器人的场景。Sara拥有三种情绪：快乐、悲伤和气愤。她在阅读表情符号时，可以发出笑声、叹息或气愤语气，而且还能发出“太~（拉长语调）好了”这种人类特有的语调。

播放下面的语音，亲耳感受一下效果。