三大首席科学家揭秘：微软小冰是如何长成“德智美”全能型AI的？原创

作者：高玉娴

“不管是唱歌作曲，还是写诗画画，其实我们的目的是想让小冰更像人类，这种在艺术、文学等方面的自主性，常常会让我们在某个瞬间产生一种错觉——她好像真的有自我意识。”

如果你认识2017年以前的小冰，那你一定知道那时的她还是一个不折不扣的“音痴”，甚至可以说有点五音不全。不过，小冰的进步很快，到2017年的第五代时，她已经可以像人（而不是机器人）一样自然地演绎一首歌曲，并且还发布了自己的单曲；而去年的第六代小冰通过吸收人类歌手的演唱技巧，甚至掌握了模仿技能，比如模仿腾格尔的风格演唱了自己的成名曲《隐形的翅膀》。

每一代的小冰在音乐方面都有巨大的进步，今年“七岁”的小冰甚至已经成长为了一个非常成熟的唱作型歌手，在音色上拥有各种不同的嗓音，在唱功上能完成不同唱腔、唱法、高低音的自然转换过渡，在技能上既能创作还会翻唱。不久前，她就翻唱了当下最火的抖音神曲《野狼Disco》。（附上链接：https://y.qq.com/n/yqq/song/244481725_num.html?ADTAG=h5_playsong&no_redirect=1，大家可以进去听听自行感受一下）

据了解，这首《野狼Disco》，完全由小冰的框架自动生成，并且用上了尚未公开发布的“粤语和说唱模型”。

为什么要教小冰唱歌？

唱歌是微软小冰在人工智能的声音创造方面取得的巨大突破，甚至可以说是语音合成技术领域的“最高限”。在昨天与媒体的交流中，微软小冰首席语音科学家栾剑透露了微软之所以“教小冰唱歌”的初衷：第一，在语音领域，唱歌的技术门槛比说话高；第二，音乐的情感表达更加丰富和激烈；第三，音乐是一个很重要的娱乐形式。

微软小冰首席语音科学家栾剑

因此，选择唱歌这样一个极具挑战的领域，一方面能够推进微软小冰人工智能框架在语音方面的研究，另一方面，通过这种更为大众广泛接受的产品和成果，也能更容易获得用户的交互和反馈信息，反过来推动技术的发展。

2015年，我们第一次听到了微软小冰的声音——生动活泼、古灵精怪，这样一个“萌妹子”人设很快“俘获”了众多消费者的心。虽然那时候的她已经具备了很多声音技能，比如儿化音、中英文混杂的朗读、讲儿童故事等等，但在音乐方面却是“一窍不通”。

而在短短的四年时间里，小冰是如何快速从一个“音痴”变成一个“唱作歌手”的呢？栾剑介绍，小冰的学习渠道有两种，一是和人类歌手学习，二是识别曲谱进行演唱。“对于人来说，可能前者是相对简单和广泛的学习方式，但机器恰恰相反，后者的输入方式更加便捷和清晰，能够减少很多误差。”

通过参数合成的方法，小冰团队采集了“发音”、 “节拍”、“旋律”这三大音乐元素，并对声谱参数、节奏序列、音高轨迹分别建模，根据三个参数统一构建模型，生成最终声音波形。

和所有的深度学习任务一样，这个过程需要大量数据的支持。然而，在AI唱歌领域，清唱数据却严重缺乏，绝大部分数据都是混杂着伴奏的音轨，这样的干扰对于人声的提取和模型的训练提出了巨大挑战。对此，小冰团队通过人声部分检测、音素时刻对齐、音高轨迹提取等方式弥补了不足。

现在，小冰已经在演唱和作曲方面“双开花”。比如，在音乐平台中充当虚拟歌手，既可以发单曲，也可以帮助音乐公司完善歌手库；比如，为音乐创作者演唱歌曲小样；再比如，通过音乐生成平台，小冰还可以为音乐创作者提供许多音乐制作的工具。“接下来，我们还会把更多的人工智能元素加进去，帮助大家作词、作曲，或者在已有词曲基础上进行修改和完善。在这方面，她会给音乐领域带来巨大的经济价值。”栾剑表示。

小冰是怎么创造比喻的？

“不管是唱歌作曲，还是写诗画画，其实我们的目的是想让小冰更像人类，这种在艺术、文学等方面的自主性，常常会让我们在某个瞬间产生一种错觉——她好像真的有自我意识。”微软小冰首席科学家宋睿华对至顶网记者说。

微软小冰首席科学家宋睿华

这与微软小冰基于EQ的研发路径有很大的关系。除了音乐之外，对于“创造力”这样一个被认为是人类独有的能力领域，微软小冰近几年来一直在不断尝试和突破。比如，在视觉创造方面，小冰通过学习400多年间236位画家的作品，用22个月时间就练就了原生绘画创作能力，并且在今年化名“夏语冰”通过了中央美院毕业考试；在文本创造方面，自两年前写出人类史上第一部人工智能诗集之后，微软小冰的多部诗集还在陆续推出。

和很多人工智能写作不同，小冰的创作能力不是停留在“写顺一句话”就罢，更重要的是“写美一句话”。而这，就要求小冰能够掌握一定的修辞手法，比如说——比喻。

看几个例子：“爱情就像葡萄酒，对程序员来说都是奢侈品”、“孤独就像是空无一人的车站”、“人生就像楼梯，各层有各层的风景”、“记忆像是古老的钟表”、“幸福像是可爱的毛毛虫”……

这些，都是微软小冰的“杰作”。通过在诗歌中选取了96个主题，挖掘了上万个词汇，经过计算排序，小冰团队选定了3000多个名词作为本体和喻体输入到模型中，由小冰的计算框架输出对比喻的解释和关联，这就是小冰创作的过程。当然，其中也难免出现一些不恰当的比喻，比如“恋人像是可靠的报表”、“金钱就像垃圾，使人腐败”等等。对此，小冰团队会把小冰造的这些句子放到线上，由更多的人进行评价，进而获得对应的信息反馈到模型中，让句子变得更吸引人。

为了让小冰的创作更加“声情并茂”，小冰团队还在其框架中引入了“跨模态理解”技术，从而让小冰能像人一样将听到看到的文字联想成具体的画面。

这对于人工智能来说，并不简单。因为在人类的表述中，往往不会把习以为常的现象写入文字中，比如，我们并不会说“我今天用两条腿走路”、“北极熊是白色的”、“冰天雪地的世界是白色的”。但这样的常识，对于人工智能理解上下文却是至关重要的。

对此，微软小冰团队提出激发加创建框架，其中激发部分采用一种全新的视觉检索方法，用M个图片或视频对应N句话，去组成一个完整的故事，模拟了人类脑海中听到故事产生的场景。这样的场景，就形成了小冰的常识或者记忆，在她获取相关信息时，可以对应地进行匹配和调取。

为什么和小冰聊天很有趣？

凭借跨模态理解技术提高人工智能的语言理解能力，这对于培养小冰的“同理心”非常重要，而这，也是小冰的独特能力之一。

“情感不是由单一模态决定的，当我们说‘我讨厌你’时，是真的讨厌吗？并不见得。因为人的情感表达不仅包括文字，还包括了声音、表情、动作等等。”微软小冰首席NLP科学家武威强调，“只有多模态才能进行所谓的情感识别，这也是小冰情感计算框架的刚需。”

微软小冰首席NLP科学家武威

他把和小冰一样拥有“同理心”、高情商的机器人称为“自我完备的对话机器人”，并表示，这样的机器人应该具备三项基本能力——学习能力、自主管理能力、连接能力。

体验过微软小冰产品的人都清楚，她不仅歌唱得好、画画得好、诗写得好，沟通能力也相当出众，不但有优秀的多轮对话能力，还有不“把天聊死”的独特技能。

据统计，在交互场景大幅度拓宽的情况下，微软小冰与用户的单次平均对话轮数仍保持在23轮。在这背后，小冰团队使用的是无监督学习方式，在对对话上下文进行补全之后，再进行回复。举个例子：上文“我19号从昆明飞厦门”，下文“我也想去”。这对人来说很好理解，但对于机器来说，就要进行信息补全，将下文补充为“昆明飞厦门，我也想去”。这也是跨模态理解技术的基础应用场景之一。

“在学习方面，我们还做了一些其它的尝试，比如让两个检索模型在训练过程中互为师生、互相交流。这样一来，在每一次迭代时，其中一个模型就会把它学到的知识传达给另一个模型，进而得到共同的进步。”武威介绍，“通过测试，我们发现，基于这种Co-teaching的算法，每一个模型的拟合效果都出现了显著提升。”

对于自主管理，第六代小冰发布的共感模型是非常典型的一个应用，其中包括“回复生成模型”和“策略决定模型”两部分，前者决定了“说什么”，后者决定了“怎么说”。而在这个过程中，最大的灵活性就在于策略，比如主动引导话题、向对方提问、保持静默等等。武威解释：“这种策略可以是意图、话题、情感，也可以是基于这些因素组合产生的复杂对话流程。非常重要的地方在于，我们考虑了整个对话流程的把控，不光考虑说什么，更要考虑怎么说。交流不是一个‘你问我答’的过程，而是一个有目的的沟通。”“在这个过程中是不是每一轮对话都要对上下文有精准理解？其实没有必要。就像人类在聊天的时候，我可以打断你，也可以把话题引到另一个方向，或者在感兴趣的时候甚至不说话，而是静静聆听。这才是对话的技巧。”

对于连接，其要点就是跨模态理解，或者说多模态交互。通过把散落在各个地方的文档、知识图谱、视频等多模态的知识连接在一起，进行消化、吸收和有机组合，人工智能才能拥有“眼睛”、“嘴巴”、“耳朵”，能像人一样进行理解和交互。

好消息是，在今年的第七代小冰发布会上，微软已经宣布把小冰这样的全能能力，通过统一的计算框架Avatar Framework开放出来，让用户自己在上面构建具有完整情感计算能力的人工智能助手、社交对话机器人、人工智能内容创作和IP人物角色等等。“我们希望她能像一棵树一样，成为一个通用的平台，让更多的企业去做出自己的AI，形成一片AI的森林，这就是微软说的‘AI beings’。” 宋睿华总结说。

来源：至顶网人工智能频道

0赞

好文章，需要你的鼓励

三大首席科学家揭秘：微软小冰是如何长成“德智美”全能型AI的？ 原创

来源：至顶网人工智能频道

2019

11/22

20:21

分享

点赞

人工智能遇上生物设计，巴塞罗那科学家破解细胞身份的奥秘，像“金刚狼”一样拥有不死之身

引领园区网效率革命：新华三正式发布全光网络5.0解决方案

第三方安全漏洞威胁欧洲大型银行

日常药物发现：技术如何拓展临床试验的潜力并重新聚焦参与者

Apple 宣布 2025 年设计大奖获奖名单

优步为老年人推出全新账户类型，提供更简洁的用户界面

Cisco 推出数据中心解决方案 助力 AI

OpenAI 发布 o3-pro：升级版 o3 AI 推理模型

高通分享其内置生成式 AI 的智能眼镜未来愿景

AlphaSense 推出全新 Deep Research：面向互联网和企业文件的深度研究为何如此重要

首席信息安全官必须将网络威胁转化为业务风险

从网安融合到AI，守护好企业的每一个环节

最热门的 AI 模型：它们的功能和使用方法

这款古怪的 AI 智能手机可以创建你的数字分身

Faireez 获 750 万美元融资，为租赁市场提供 AI 驱动的酒店式管家服务

Broadcom 大获全胜：70% 大型 VMware 客户购买其最全面解决方案

Peer 获得1050万美元元宇宙引擎投资，推出3D个人星球功能

获 3000 万美元融资，Crogl 发布面向安全分析师的全新 AI "钢铁侠战衣"

Turing 获得 1.11 亿美元融资，估值达到 22 亿美元，为 OpenAI 等大语言模型公司提供关键代码支持

Tavus 推出系列 AI 模型，实现实时人脸交互技术突破

Welevel 获得 570 万美元融资，革新程序化游戏开发

AI 驱动的卓越运营：企业如何通过人人可及的流程智能提升成功

如果您非常迫切的想了解IT领域最新产品与技术信息，那么订阅至顶网技术邮件将是您的最佳途径之一

在欧洲之门马德里，我们再次见证了SAP激活企业增长的“飞轮”

IEEE专家委员胡凝：消解AI幻觉“阴影”，洞见“超级个体”价值锚点

生成式AI催生新物种，SaaS CRM掀起下半场变革战

芝加哥大学赵燕斌：我们做的是让AI看不见的“艺术”

关注官方公众号

关注官方微博

关注官方喜马拉雅

友情链接

业界热点:

三大首席科学家揭秘：微软小冰是如何长成“德智美”全能型AI的？原创

Cisco 推出数据中心解决方案助力 AI