摘要:微软Azure Neural TTS让AI语音像真人一样富有感情,自然逼真。
Neural TTS(神经网络文本转语音)是微软Azure认知服务的强大语音合成功能,自推出以来,已被广泛应用于从语音助手、新闻阅读到有声读物创作等多种场景。同时,越来越多的用户希望它也可以支持到更多日常的对话场景,拥有更加富有情感和自然逼真的拟人效果。如今,这一愿望已经得到实现——通过对Neural TTS多个方面的升级,它所合成的声音已经能够良好适应日常对话场景。
不同对话场景,用户期待不同语气的拟人AI语音
TTS语音已被越来越多地用于支持人机对话或机器辅助的日常交流——例如人与人之间对话的同声传译。在这些场景中,人们普遍期待能够实现更自然、更口语化的对话风格。我们不妨从以下三个典型场景中,来理解用户对于对话声音和风格的不同需求。
客服机器人:语气要自然、友好且专业
很多企业正在使用支持语音的聊天机器人或IVR(互动式语音应答)系统,为客户带来相比传统方式更为高效、体贴的客户服务。例如国际移动通讯网络公司沃达丰就成功地创建了一个拥有自然语音的客服机器人TOBi。Azure的人工智能和自然语言处理功能赋予了TOBi鲜明的个性,使客户与TOBi之间的人机对话变得轻松自然,让客户更乐于与之交流。
设想这样的情景:在客户对TOBi报出姓名后,当TOBi需要了解客户的地址以便提供进一步服务时,Tobi并不会生硬地接着发问:“请说出您的地址。”而是会这样表达:“嘿,好名字!接下来我还需要了解一下您住在哪里?”此时此刻,客户一定希望AI能够以听起来热情、友好、温暖,且又专业的声音来说出这句话。类似的需求不仅体现在AI解答客户疑问时,还适用于AI语音向客户打招呼,或表达共情态度时。
个人助理:表情符号、重点强调要读懂
随着虚拟助手和虚拟现实技术的兴起,使用Neural TTS来支持闲聊和日常对话功能的客户数量正在不断增加。想要让AI与人类的对话更加自然,最主要的挑战之一在于如何让AI理解包含特殊字符在内的聊天用语——比如“呵呵”、“哈哈”、“哎哟”这类词汇,![]()
这类表情符号,还有重复字母如“soooo good”——然后再以自然的语气提供即时响应。此外,让AI能使用不同的信息来表达相应情感,从而表现出对人类感受的共鸣感,也正在成为一种越来越普遍的用户需求。
同声传译:翻译前后说话风格、语气要一致
语音互译是又一个对话式AI语音可支持的典型场景。Azure Neural TTS已覆盖110多种不同语言,被应用于多种翻译场景中。不过,如何在翻译的同时保持讲话者的原始语气风格,一直都是个挑战。尤其是在较为随意的对话场景中,讲话者往往会使用语气上的细微差别来与听众建立情感联系。在这种情况下,如果AI语音可在提供同步翻译的同时,又能捕捉并理解讲话者的风格,就能使不同语言之间的对话依然生动且具有吸引力。
Azure Neural TTS进化:多国语言皆可栩栩如生、“以假乱真”
Sara(英语):更能表现自然情感的聊天机器人语音
Sara是一个新近推出的美式英语音色,尤其擅长轻松的对话。“她”有着轻松自然的年轻女性声线,能够胜任各种需要聊天机器人的场景。Sara拥有三种情绪:快乐、悲伤和气愤。她在阅读表情符号时,可以发出笑声、叹息或气愤语气,而且还能发出“太~(拉长语调)好了”这种人类特有的语调。
播放下面的语音,亲耳感受一下效果。
下面这段录音,来自Sara作为聊天机器人与人类用户之间的自然对话。(此示例来自机器人和人类用户之间的闲聊,对话很随意,可能包含错误。)

除了预设的几种“情绪”,用户还可以通过SSML让Sara在常规交流、欢快、悲伤和愤怒等几种语气风格之间随意切换。
晓辰和晓颜(中文普通话):专为日常对话及客服场景而优化的全新中文语音
晓辰和晓颜是专为中文用户提供的普通话语音。其中晓辰擅长逼真的自然语气,晓颜与客户服务场景更匹配。
晓辰和晓颜最显著的特征,在于能逼真模仿人类在日常场合下的交流。与朗诵、播音这类“严肃”场合不同,人们的日常对话中除了语气随意,韵律多变,而且常常出现词语发音不完整,句子语法不像课本那么严谨,且会出现重复、不完整、或者啰嗦等情况。
借助先进的建模技术,晓辰和晓颜的AI语音能够学习并活用这些人类表达的“缺陷”,并逼真地还原这些“不完美”,使合成语音听起来更加真实亲切。
在下面这段客服场景模拟对话中,晓颜是客服助理,晓辰是客户。您可以从中感受到他们如同真人一般轻松、自然的对话语气。
Nanami(日语):元气满满的东瀛女声
Nanami是拥有动听女性声线的日语语音。“她”有着三种不同语音风格:聊天风格、客服风格和开朗风格,让合成语音在各种场景中都更具吸引力。

来听一听Nanami元气满满的声音:
现在就来感受Azure Neural TTS拟人语音的动人表现力吧!
微软不断倾听全球用户对于Azure Neural TTS在不同情况下语音发音准确性的反馈,以负责任的AI及公平、可靠和安全、隐私和保障、包容、透明、负责的六项人工智能准则为前提,进行了这次更新,为用户带来表达更自然、语义更清晰的语音体验。
现在,微软的文本转语音可以支持超过110种语言的270多种AI语音。如果想亲身感受Azure Neural TTS的强大,就来Azure官网亲自体验吧!还有声音定制平台可以即刻为企业创建多种语言和风格的独特品牌语音。
好文章,需要你的鼓励
近期有观点认为,大规模使用生成式AI和大语言模型会增强人类左脑的逻辑分析能力,同时削弱右脑的创造力,导致人类社会逐渐成为左脑主导的群体。但研究表明,左右脑功能分工理论缺乏科学依据,大脑两半球在创造性和逻辑性任务中都会协同工作。此外,AI不仅能辅助逻辑思维,同样可用于诗歌创作、图像生成等创意任务。
这项由圣母大学和IBM研究院联合开展的研究,开发出了名为DeepEvolve的AI科学助手系统,能够像人类科学家一样进行深度文献研究并将创新想法转化为可执行的算法程序。该系统突破了传统AI要么只能改进算法但缺乏创新、要么只能提出想法但无法实现的局限,在化学、生物学、数学等九个科学领域的测试中都实现了显著的算法性能提升,为AI辅助科学发现开辟了新的道路。
微软全球AI巡展在迪拜举行,宣布启动Microsoft Elevate UAE项目,计划为超过25万名学生和教育工作者以及5.5万名联邦政府员工提供AI技能培训。该项目是微软152亿美元投资计划的一部分,旨在加强AI基础设施建设,培养本地人才能力。微软还将与G42和JAHIZ平台合作,为联邦公务员提供技术培训,支持阿联酋成为AI领域的区域和全球领导者。
卡内基梅隆大学研究团队通过3331次大规模实验,系统揭示了代码训练如何提升AI推理能力。研究发现,代码的结构特性比语义内容更重要,适当的抽象形式(如伪代码)可以达到与原始代码相同的效果。不同编程语言产生差异化影响:低抽象语言有利于数学推理,Python更适合自然语言任务。这些发现为AI训练数据的科学化设计提供了重要指导。