摘要:微软Azure Neural TTS让AI语音像真人一样富有感情,自然逼真。
Neural TTS(神经网络文本转语音)是微软Azure认知服务的强大语音合成功能,自推出以来,已被广泛应用于从语音助手、新闻阅读到有声读物创作等多种场景。同时,越来越多的用户希望它也可以支持到更多日常的对话场景,拥有更加富有情感和自然逼真的拟人效果。如今,这一愿望已经得到实现——通过对Neural TTS多个方面的升级,它所合成的声音已经能够良好适应日常对话场景。
不同对话场景,用户期待不同语气的拟人AI语音
TTS语音已被越来越多地用于支持人机对话或机器辅助的日常交流——例如人与人之间对话的同声传译。在这些场景中,人们普遍期待能够实现更自然、更口语化的对话风格。我们不妨从以下三个典型场景中,来理解用户对于对话声音和风格的不同需求。
客服机器人:语气要自然、友好且专业
很多企业正在使用支持语音的聊天机器人或IVR(互动式语音应答)系统,为客户带来相比传统方式更为高效、体贴的客户服务。例如国际移动通讯网络公司沃达丰就成功地创建了一个拥有自然语音的客服机器人TOBi。Azure的人工智能和自然语言处理功能赋予了TOBi鲜明的个性,使客户与TOBi之间的人机对话变得轻松自然,让客户更乐于与之交流。
设想这样的情景:在客户对TOBi报出姓名后,当TOBi需要了解客户的地址以便提供进一步服务时,Tobi并不会生硬地接着发问:“请说出您的地址。”而是会这样表达:“嘿,好名字!接下来我还需要了解一下您住在哪里?”此时此刻,客户一定希望AI能够以听起来热情、友好、温暖,且又专业的声音来说出这句话。类似的需求不仅体现在AI解答客户疑问时,还适用于AI语音向客户打招呼,或表达共情态度时。
个人助理:表情符号、重点强调要读懂
随着虚拟助手和虚拟现实技术的兴起,使用Neural TTS来支持闲聊和日常对话功能的客户数量正在不断增加。想要让AI与人类的对话更加自然,最主要的挑战之一在于如何让AI理解包含特殊字符在内的聊天用语——比如“呵呵”、“哈哈”、“哎哟”这类词汇,这类表情符号,还有重复字母如“soooo good”——然后再以自然的语气提供即时响应。此外,让AI能使用不同的信息来表达相应情感,从而表现出对人类感受的共鸣感,也正在成为一种越来越普遍的用户需求。
同声传译:翻译前后说话风格、语气要一致
语音互译是又一个对话式AI语音可支持的典型场景。Azure Neural TTS已覆盖110多种不同语言,被应用于多种翻译场景中。不过,如何在翻译的同时保持讲话者的原始语气风格,一直都是个挑战。尤其是在较为随意的对话场景中,讲话者往往会使用语气上的细微差别来与听众建立情感联系。在这种情况下,如果AI语音可在提供同步翻译的同时,又能捕捉并理解讲话者的风格,就能使不同语言之间的对话依然生动且具有吸引力。
Azure Neural TTS进化:多国语言皆可栩栩如生、“以假乱真”
Sara(英语):更能表现自然情感的聊天机器人语音
Sara是一个新近推出的美式英语音色,尤其擅长轻松的对话。“她”有着轻松自然的年轻女性声线,能够胜任各种需要聊天机器人的场景。Sara拥有三种情绪:快乐、悲伤和气愤。她在阅读表情符号时,可以发出笑声、叹息或气愤语气,而且还能发出“太~(拉长语调)好了”这种人类特有的语调。
播放下面的语音,亲耳感受一下效果。
下面这段录音,来自Sara作为聊天机器人与人类用户之间的自然对话。(此示例来自机器人和人类用户之间的闲聊,对话很随意,可能包含错误。)
除了预设的几种“情绪”,用户还可以通过SSML让Sara在常规交流、欢快、悲伤和愤怒等几种语气风格之间随意切换。
晓辰和晓颜(中文普通话):专为日常对话及客服场景而优化的全新中文语音
晓辰和晓颜是专为中文用户提供的普通话语音。其中晓辰擅长逼真的自然语气,晓颜与客户服务场景更匹配。
晓辰和晓颜最显著的特征,在于能逼真模仿人类在日常场合下的交流。与朗诵、播音这类“严肃”场合不同,人们的日常对话中除了语气随意,韵律多变,而且常常出现词语发音不完整,句子语法不像课本那么严谨,且会出现重复、不完整、或者啰嗦等情况。
借助先进的建模技术,晓辰和晓颜的AI语音能够学习并活用这些人类表达的“缺陷”,并逼真地还原这些“不完美”,使合成语音听起来更加真实亲切。
在下面这段客服场景模拟对话中,晓颜是客服助理,晓辰是客户。您可以从中感受到他们如同真人一般轻松、自然的对话语气。
Nanami(日语):元气满满的东瀛女声
Nanami是拥有动听女性声线的日语语音。“她”有着三种不同语音风格:聊天风格、客服风格和开朗风格,让合成语音在各种场景中都更具吸引力。
来听一听Nanami元气满满的声音:
现在就来感受Azure Neural TTS拟人语音的动人表现力吧!
微软不断倾听全球用户对于Azure Neural TTS在不同情况下语音发音准确性的反馈,以负责任的AI及公平、可靠和安全、隐私和保障、包容、透明、负责的六项人工智能准则为前提,进行了这次更新,为用户带来表达更自然、语义更清晰的语音体验。
现在,微软的文本转语音可以支持超过110种语言的270多种AI语音。如果想亲身感受Azure Neural TTS的强大,就来Azure官网亲自体验吧!还有声音定制平台可以即刻为企业创建多种语言和风格的独特品牌语音。
好文章,需要你的鼓励
施耐德电气以“新质服务+产业向‘新’行”为主题,第六次参会,展示全新升级的“新质服务体系”,围绕创新驱动、生态协同和行业赋能三大核心领域,以全新升级的“新质服务体系”,助力中国产业向高端化、智能化、绿色化迈进。
香港中文大学联合上海AI实验室推出Dispider系统,首次实现AI视频"边看边聊"能力。通过创新的三分式架构设计,将感知、决策、反应功能独立分离,让AI能像人类一样在观看视频过程中进行实时交流,在StreamingBench测试中显著超越现有系统,为教育、娱乐、医疗、安防等领域的视频AI应用开启新可能。
甲骨文正在成为大规模基础设施供应商的可靠选择。该公司通过AI技术推动应用开发,构建GenAI模型并将智能代理集成到应用套件中。CEO萨弗拉·卡茨透露,公司剩余履约义务达4553亿美元,同比增长4.6倍,并预测OCI收入将从2026财年的180亿美元增长至2030财年的1440亿美元。甲骨文正积极布局AI推理市场,凭借其作为全球最大企业私有数据托管方的优势地位,有望在云计算领域实现重大突破。
Atla公司发布Selene Mini,这是一个仅有80亿参数的AI评估模型,却在11个基准测试中全面超越GPT-4o-mini。通过精心的数据筛选和创新训练策略,该模型不仅能准确评判文本质量,还能在医疗、金融等专业领域表现出色。研究团队将模型完全开源,为AI评估技术的普及和发展做出贡献。