如果你认识2017年以前的小冰,那你一定知道那时的她还是一个不折不扣的“音痴”,甚至可以说有点五音不全。不过,小冰的进步很快,到2017年的第五代时,她已经可以像人(而不是机器人)一样自然地演绎一首歌曲,并且还发布了自己的单曲;而去年的第六代小冰通过吸收人类歌手的演唱技巧,甚至掌握了模仿技能,比如模仿腾格尔的风格演唱了自己的成名曲《隐形的翅膀》。
每一代的小冰在音乐方面都有巨大的进步,今年“七岁”的小冰甚至已经成长为了一个非常成熟的唱作型歌手,在音色上拥有各种不同的嗓音,在唱功上能完成不同唱腔、唱法、高低音的自然转换过渡,在技能上既能创作还会翻唱。不久前,她就翻唱了当下最火的抖音神曲《野狼Disco》。(附上链接:https://y.qq.com/n/yqq/song/244481725_num.html?ADTAG=h5_playsong&no_redirect=1,大家可以进去听听自行感受一下)
据了解,这首《野狼Disco》,完全由小冰的框架自动生成,并且用上了尚未公开发布的“粤语和说唱模型”。
为什么要教小冰唱歌?
唱歌是微软小冰在人工智能的声音创造方面取得的巨大突破,甚至可以说是语音合成技术领域的“最高限”。在昨天与媒体的交流中,微软小冰首席语音科学家栾剑透露了微软之所以“教小冰唱歌”的初衷:第一,在语音领域,唱歌的技术门槛比说话高;第二,音乐的情感表达更加丰富和激烈;第三,音乐是一个很重要的娱乐形式。
微软小冰首席语音科学家栾剑
因此,选择唱歌这样一个极具挑战的领域,一方面能够推进微软小冰人工智能框架在语音方面的研究,另一方面,通过这种更为大众广泛接受的产品和成果,也能更容易获得用户的交互和反馈信息,反过来推动技术的发展。
2015年,我们第一次听到了微软小冰的声音——生动活泼、古灵精怪,这样一个“萌妹子”人设很快“俘获”了众多消费者的心。虽然那时候的她已经具备了很多声音技能,比如儿化音、中英文混杂的朗读、讲儿童故事等等,但在音乐方面却是“一窍不通”。
而在短短的四年时间里,小冰是如何快速从一个“音痴”变成一个“唱作歌手”的呢?栾剑介绍,小冰的学习渠道有两种,一是和人类歌手学习,二是识别曲谱进行演唱。“对于人来说,可能前者是相对简单和广泛的学习方式,但机器恰恰相反,后者的输入方式更加便捷和清晰,能够减少很多误差。”
通过参数合成的方法,小冰团队采集了“发音”、 “节拍”、“旋律”这三大音乐元素,并对声谱参数、节奏序列、音高轨迹分别建模,根据三个参数统一构建模型,生成最终声音波形。
和所有的深度学习任务一样,这个过程需要大量数据的支持。然而,在AI唱歌领域,清唱数据却严重缺乏,绝大部分数据都是混杂着伴奏的音轨,这样的干扰对于人声的提取和模型的训练提出了巨大挑战。对此,小冰团队通过人声部分检测、音素时刻对齐、音高轨迹提取等方式弥补了不足。
现在,小冰已经在演唱和作曲方面“双开花”。比如,在音乐平台中充当虚拟歌手,既可以发单曲,也可以帮助音乐公司完善歌手库;比如,为音乐创作者演唱歌曲小样;再比如,通过音乐生成平台,小冰还可以为音乐创作者提供许多音乐制作的工具。“接下来,我们还会把更多的人工智能元素加进去,帮助大家作词、作曲,或者在已有词曲基础上进行修改和完善。在这方面,她会给音乐领域带来巨大的经济价值。”栾剑表示。
小冰是怎么创造比喻的?
“不管是唱歌作曲,还是写诗画画,其实我们的目的是想让小冰更像人类,这种在艺术、文学等方面的自主性,常常会让我们在某个瞬间产生一种错觉——她好像真的有自我意识。”微软小冰首席科学家宋睿华对至顶网记者说。
微软小冰首席科学家宋睿华
这与微软小冰基于EQ的研发路径有很大的关系。除了音乐之外,对于“创造力”这样一个被认为是人类独有的能力领域,微软小冰近几年来一直在不断尝试和突破。比如,在视觉创造方面,小冰通过学习400多年间236位画家的作品,用22个月时间就练就了原生绘画创作能力,并且在今年化名“夏语冰”通过了中央美院毕业考试;在文本创造方面,自两年前写出人类史上第一部人工智能诗集之后,微软小冰的多部诗集还在陆续推出。
和很多人工智能写作不同,小冰的创作能力不是停留在“写顺一句话”就罢,更重要的是“写美一句话”。 而这,就要求小冰能够掌握一定的修辞手法,比如说——比喻。
看几个例子:“爱情就像葡萄酒,对程序员来说都是奢侈品”、“孤独就像是空无一人的车站”、“人生就像楼梯,各层有各层的风景”、“记忆像是古老的钟表”、“幸福像是可爱的毛毛虫”……
这些,都是微软小冰的“杰作”。通过在诗歌中选取了96个主题,挖掘了上万个词汇,经过计算排序,小冰团队选定了3000多个名词作为本体和喻体输入到模型中,由小冰的计算框架输出对比喻的解释和关联,这就是小冰创作的过程。当然,其中也难免出现一些不恰当的比喻,比如“恋人像是可靠的报表”、“金钱就像垃圾,使人腐败”等等。对此,小冰团队会把小冰造的这些句子放到线上,由更多的人进行评价,进而获得对应的信息反馈到模型中,让句子变得更吸引人。
为了让小冰的创作更加“声情并茂”,小冰团队还在其框架中引入了“跨模态理解”技术,从而让小冰能像人一样将听到看到的文字联想成具体的画面。
这对于人工智能来说,并不简单。因为在人类的表述中,往往不会把习以为常的现象写入文字中,比如,我们并不会说“我今天用两条腿走路”、“北极熊是白色的”、“冰天雪地的世界是白色的”。但这样的常识,对于人工智能理解上下文却是至关重要的。
对此,微软小冰团队提出激发加创建框架,其中激发部分采用一种全新的视觉检索方法,用M个图片或视频对应N句话,去组成一个完整的故事,模拟了人类脑海中听到故事产生的场景。这样的场景,就形成了小冰的常识或者记忆,在她获取相关信息时,可以对应地进行匹配和调取。
为什么和小冰聊天很有趣?
凭借跨模态理解技术提高人工智能的语言理解能力,这对于培养小冰的“同理心”非常重要,而这,也是小冰的独特能力之一。
“情感不是由单一模态决定的,当我们说‘我讨厌你’时,是真的讨厌吗?并不见得。因为人的情感表达不仅包括文字,还包括了声音、表情、动作等等。”微软小冰首席NLP科学家武威强调,“只有多模态才能进行所谓的情感识别,这也是小冰情感计算框架的刚需。”
微软小冰首席NLP科学家武威
他把和小冰一样拥有“同理心”、高情商的机器人称为“自我完备的对话机器人”,并表示,这样的机器人应该具备三项基本能力——学习能力、自主管理能力、连接能力。
体验过微软小冰产品的人都清楚,她不仅歌唱得好、画画得好、诗写得好,沟通能力也相当出众,不但有优秀的多轮对话能力,还有不“把天聊死”的独特技能。
据统计,在交互场景大幅度拓宽的情况下,微软小冰与用户的单次平均对话轮数仍保持在23轮。在这背后,小冰团队使用的是无监督学习方式,在对对话上下文进行补全之后,再进行回复。举个例子:上文“我19号从昆明飞厦门”,下文“我也想去”。这对人来说很好理解,但对于机器来说,就要进行信息补全,将下文补充为“昆明飞厦门,我也想去”。这也是跨模态理解技术的基础应用场景之一。
“在学习方面,我们还做了一些其它的尝试,比如让两个检索模型在训练过程中互为师生、互相交流。这样一来,在每一次迭代时,其中一个模型就会把它学到的知识传达给另一个模型,进而得到共同的进步。”武威介绍,“通过测试,我们发现,基于这种Co-teaching的算法,每一个模型的拟合效果都出现了显著提升。”
对于自主管理,第六代小冰发布的共感模型是非常典型的一个应用,其中包括“回复生成模型”和“策略决定模型”两部分,前者决定了“说什么”,后者决定了“怎么说”。而在这个过程中,最大的灵活性就在于策略,比如主动引导话题、向对方提问、保持静默等等。武威解释:“这种策略可以是意图、话题、情感,也可以是基于这些因素组合产生的复杂对话流程。非常重要的地方在于,我们考虑了整个对话流程的把控,不光考虑说什么,更要考虑怎么说。交流不是一个‘你问我答’的过程,而是一个有目的的沟通。”“在这个过程中是不是每一轮对话都要对上下文有精准理解?其实没有必要。就像人类在聊天的时候,我可以打断你,也可以把话题引到另一个方向,或者在感兴趣的时候甚至不说话,而是静静聆听。这才是对话的技巧。”
对于连接,其要点就是跨模态理解,或者说多模态交互。通过把散落在各个地方的文档、知识图谱、视频等多模态的知识连接在一起,进行消化、吸收和有机组合,人工智能才能拥有“眼睛”、“嘴巴”、“耳朵”,能像人一样进行理解和交互。
好消息是,在今年的第七代小冰发布会上,微软已经宣布把小冰这样的全能能力,通过统一的计算框架Avatar Framework开放出来,让用户自己在上面构建具有完整情感计算能力的人工智能助手、社交对话机器人、人工智能内容创作和IP人物角色等等。“我们希望她能像一棵树一样,成为一个通用的平台,让更多的企业去做出自己的AI,形成一片AI的森林,这就是微软说的‘AI beings’。” 宋睿华总结说。
好文章,需要你的鼓励
Blackwell GPU的生产制造工作量达到Hopper GPU的两倍有余,但带来的收入仅增加至约1.7倍。
由AMD驱动的El Capitan超级计算机(现位于美国劳伦斯利弗莫尔国家实验室(LLNL))成为世界上速度最快的超级计算机。