三大首席科学家揭秘：微软小冰是如何长成“德智美”全能型AI的？原创

作者：高玉娴

“不管是唱歌作曲，还是写诗画画，其实我们的目的是想让小冰更像人类，这种在艺术、文学等方面的自主性，常常会让我们在某个瞬间产生一种错觉——她好像真的有自我意识。”

如果你认识2017年以前的小冰，那你一定知道那时的她还是一个不折不扣的“音痴”，甚至可以说有点五音不全。不过，小冰的进步很快，到2017年的第五代时，她已经可以像人（而不是机器人）一样自然地演绎一首歌曲，并且还发布了自己的单曲；而去年的第六代小冰通过吸收人类歌手的演唱技巧，甚至掌握了模仿技能，比如模仿腾格尔的风格演唱了自己的成名曲《隐形的翅膀》。

每一代的小冰在音乐方面都有巨大的进步，今年“七岁”的小冰甚至已经成长为了一个非常成熟的唱作型歌手，在音色上拥有各种不同的嗓音，在唱功上能完成不同唱腔、唱法、高低音的自然转换过渡，在技能上既能创作还会翻唱。不久前，她就翻唱了当下最火的抖音神曲《野狼Disco》。（附上链接：https://y.qq.com/n/yqq/song/244481725_num.html?ADTAG=h5_playsong&no_redirect=1，大家可以进去听听自行感受一下）

据了解，这首《野狼Disco》，完全由小冰的框架自动生成，并且用上了尚未公开发布的“粤语和说唱模型”。

为什么要教小冰唱歌？

唱歌是微软小冰在人工智能的声音创造方面取得的巨大突破，甚至可以说是语音合成技术领域的“最高限”。在昨天与媒体的交流中，微软小冰首席语音科学家栾剑透露了微软之所以“教小冰唱歌”的初衷：第一，在语音领域，唱歌的技术门槛比说话高；第二，音乐的情感表达更加丰富和激烈；第三，音乐是一个很重要的娱乐形式。

微软小冰首席语音科学家栾剑

因此，选择唱歌这样一个极具挑战的领域，一方面能够推进微软小冰人工智能框架在语音方面的研究，另一方面，通过这种更为大众广泛接受的产品和成果，也能更容易获得用户的交互和反馈信息，反过来推动技术的发展。

2015年，我们第一次听到了微软小冰的声音——生动活泼、古灵精怪，这样一个“萌妹子”人设很快“俘获”了众多消费者的心。虽然那时候的她已经具备了很多声音技能，比如儿化音、中英文混杂的朗读、讲儿童故事等等，但在音乐方面却是“一窍不通”。

而在短短的四年时间里，小冰是如何快速从一个“音痴”变成一个“唱作歌手”的呢？栾剑介绍，小冰的学习渠道有两种，一是和人类歌手学习，二是识别曲谱进行演唱。“对于人来说，可能前者是相对简单和广泛的学习方式，但机器恰恰相反，后者的输入方式更加便捷和清晰，能够减少很多误差。”

通过参数合成的方法，小冰团队采集了“发音”、 “节拍”、“旋律”这三大音乐元素，并对声谱参数、节奏序列、音高轨迹分别建模，根据三个参数统一构建模型，生成最终声音波形。

和所有的深度学习任务一样，这个过程需要大量数据的支持。然而，在AI唱歌领域，清唱数据却严重缺乏，绝大部分数据都是混杂着伴奏的音轨，这样的干扰对于人声的提取和模型的训练提出了巨大挑战。对此，小冰团队通过人声部分检测、音素时刻对齐、音高轨迹提取等方式弥补了不足。

现在，小冰已经在演唱和作曲方面“双开花”。比如，在音乐平台中充当虚拟歌手，既可以发单曲，也可以帮助音乐公司完善歌手库；比如，为音乐创作者演唱歌曲小样；再比如，通过音乐生成平台，小冰还可以为音乐创作者提供许多音乐制作的工具。“接下来，我们还会把更多的人工智能元素加进去，帮助大家作词、作曲，或者在已有词曲基础上进行修改和完善。在这方面，她会给音乐领域带来巨大的经济价值。”栾剑表示。

小冰是怎么创造比喻的？

“不管是唱歌作曲，还是写诗画画，其实我们的目的是想让小冰更像人类，这种在艺术、文学等方面的自主性，常常会让我们在某个瞬间产生一种错觉——她好像真的有自我意识。”微软小冰首席科学家宋睿华对至顶网记者说。

微软小冰首席科学家宋睿华

这与微软小冰基于EQ的研发路径有很大的关系。除了音乐之外，对于“创造力”这样一个被认为是人类独有的能力领域，微软小冰近几年来一直在不断尝试和突破。比如，在视觉创造方面，小冰通过学习400多年间236位画家的作品，用22个月时间就练就了原生绘画创作能力，并且在今年化名“夏语冰”通过了中央美院毕业考试；在文本创造方面，自两年前写出人类史上第一部人工智能诗集之后，微软小冰的多部诗集还在陆续推出。

和很多人工智能写作不同，小冰的创作能力不是停留在“写顺一句话”就罢，更重要的是“写美一句话”。而这，就要求小冰能够掌握一定的修辞手法，比如说——比喻。

看几个例子：“爱情就像葡萄酒，对程序员来说都是奢侈品”、“孤独就像是空无一人的车站”、“人生就像楼梯，各层有各层的风景”、“记忆像是古老的钟表”、“幸福像是可爱的毛毛虫”……

这些，都是微软小冰的“杰作”。通过在诗歌中选取了96个主题，挖掘了上万个词汇，经过计算排序，小冰团队选定了3000多个名词作为本体和喻体输入到模型中，由小冰的计算框架输出对比喻的解释和关联，这就是小冰创作的过程。当然，其中也难免出现一些不恰当的比喻，比如“恋人像是可靠的报表”、“金钱就像垃圾，使人腐败”等等。对此，小冰团队会把小冰造的这些句子放到线上，由更多的人进行评价，进而获得对应的信息反馈到模型中，让句子变得更吸引人。

为了让小冰的创作更加“声情并茂”，小冰团队还在其框架中引入了“跨模态理解”技术，从而让小冰能像人一样将听到看到的文字联想成具体的画面。

这对于人工智能来说，并不简单。因为在人类的表述中，往往不会把习以为常的现象写入文字中，比如，我们并不会说“我今天用两条腿走路”、“北极熊是白色的”、“冰天雪地的世界是白色的”。但这样的常识，对于人工智能理解上下文却是至关重要的。

对此，微软小冰团队提出激发加创建框架，其中激发部分采用一种全新的视觉检索方法，用M个图片或视频对应N句话，去组成一个完整的故事，模拟了人类脑海中听到故事产生的场景。这样的场景，就形成了小冰的常识或者记忆，在她获取相关信息时，可以对应地进行匹配和调取。

为什么和小冰聊天很有趣？

凭借跨模态理解技术提高人工智能的语言理解能力，这对于培养小冰的“同理心”非常重要，而这，也是小冰的独特能力之一。

“情感不是由单一模态决定的，当我们说‘我讨厌你’时，是真的讨厌吗？并不见得。因为人的情感表达不仅包括文字，还包括了声音、表情、动作等等。”微软小冰首席NLP科学家武威强调，“只有多模态才能进行所谓的情感识别，这也是小冰情感计算框架的刚需。”

微软小冰首席NLP科学家武威

他把和小冰一样拥有“同理心”、高情商的机器人称为“自我完备的对话机器人”，并表示，这样的机器人应该具备三项基本能力——学习能力、自主管理能力、连接能力。

体验过微软小冰产品的人都清楚，她不仅歌唱得好、画画得好、诗写得好，沟通能力也相当出众，不但有优秀的多轮对话能力，还有不“把天聊死”的独特技能。

据统计，在交互场景大幅度拓宽的情况下，微软小冰与用户的单次平均对话轮数仍保持在23轮。在这背后，小冰团队使用的是无监督学习方式，在对对话上下文进行补全之后，再进行回复。举个例子：上文“我19号从昆明飞厦门”，下文“我也想去”。这对人来说很好理解，但对于机器来说，就要进行信息补全，将下文补充为“昆明飞厦门，我也想去”。这也是跨模态理解技术的基础应用场景之一。

“在学习方面，我们还做了一些其它的尝试，比如让两个检索模型在训练过程中互为师生、互相交流。这样一来，在每一次迭代时，其中一个模型就会把它学到的知识传达给另一个模型，进而得到共同的进步。”武威介绍，“通过测试，我们发现，基于这种Co-teaching的算法，每一个模型的拟合效果都出现了显著提升。”

对于自主管理，第六代小冰发布的共感模型是非常典型的一个应用，其中包括“回复生成模型”和“策略决定模型”两部分，前者决定了“说什么”，后者决定了“怎么说”。而在这个过程中，最大的灵活性就在于策略，比如主动引导话题、向对方提问、保持静默等等。武威解释：“这种策略可以是意图、话题、情感，也可以是基于这些因素组合产生的复杂对话流程。非常重要的地方在于，我们考虑了整个对话流程的把控，不光考虑说什么，更要考虑怎么说。交流不是一个‘你问我答’的过程，而是一个有目的的沟通。”“在这个过程中是不是每一轮对话都要对上下文有精准理解？其实没有必要。就像人类在聊天的时候，我可以打断你，也可以把话题引到另一个方向，或者在感兴趣的时候甚至不说话，而是静静聆听。这才是对话的技巧。”

对于连接，其要点就是跨模态理解，或者说多模态交互。通过把散落在各个地方的文档、知识图谱、视频等多模态的知识连接在一起，进行消化、吸收和有机组合，人工智能才能拥有“眼睛”、“嘴巴”、“耳朵”，能像人一样进行理解和交互。

好消息是，在今年的第七代小冰发布会上，微软已经宣布把小冰这样的全能能力，通过统一的计算框架Avatar Framework开放出来，让用户自己在上面构建具有完整情感计算能力的人工智能助手、社交对话机器人、人工智能内容创作和IP人物角色等等。“我们希望她能像一棵树一样，成为一个通用的平台，让更多的企业去做出自己的AI，形成一片AI的森林，这就是微软说的‘AI beings’。” 宋睿华总结说。

来源：至顶网人工智能频道

0赞

好文章，需要你的鼓励

三大首席科学家揭秘：微软小冰是如何长成“德智美”全能型AI的？ 原创

来源：至顶网人工智能频道

2019

11/22

20:21

分享

点赞

openGauss熊伟：oGRAC+超节点，AI数据库的下一个五年

R语言重获关注 Tiobe编程语言排行榜重返前十

AWS在re:Invent 2025后仍难构建企业AI完整解决方案

Linux基金会推出自主式AI基金会

GitHub个人访问Token被曝光后威胁激增，攻击者可直达云环境

Manus被收购，枫清科技将获过亿元投资：资本市场重估中国AI智能体

新年新机首选啥？AMD高端锐龙游戏本推荐

GridFree推出首个AI数据中心"电力工厂"独立站点

IDC警告AI内存需求将引发PC市场重大下滑

软银完成对OpenAI的225亿美元投资，持股比例达11%

苹果在2026年笔记本电脑出货量下滑中占据有利地位

2025年最佳AI语音录入应用推荐

最热门的 AI 模型：它们的功能和使用方法

这款古怪的 AI 智能手机可以创建你的数字分身

Faireez 获 750 万美元融资，为租赁市场提供 AI 驱动的酒店式管家服务

Broadcom 大获全胜：70% 大型 VMware 客户购买其最全面解决方案

Peer 获得1050万美元元宇宙引擎投资，推出3D个人星球功能

获 3000 万美元融资，Crogl 发布面向安全分析师的全新 AI "钢铁侠战衣"

Turing 获得 1.11 亿美元融资，估值达到 22 亿美元，为 OpenAI 等大语言模型公司提供关键代码支持

Tavus 推出系列 AI 模型，实现实时人脸交互技术突破

Welevel 获得 570 万美元融资，革新程序化游戏开发

AI 驱动的卓越运营：企业如何通过人人可及的流程智能提升成功

如果您非常迫切的想了解IT领域最新产品与技术信息，那么订阅至顶网技术邮件将是您的最佳途径之一

2025 re:Invent ：亚马逊云科技把Agentic AI生态梳理明白了

电子竞技瞬息万变，Team Liquid的“数据+AI”制胜秘籍

中国移动呼和浩特数据中心：只有高效存力先行，AI才能跑出全力

从“支撑工具”到“智能中枢”，AI原生ERP进化

关注官方公众号

关注官方微博

关注官方喜马拉雅

友情链接

业界热点:

三大首席科学家揭秘：微软小冰是如何长成“德智美”全能型AI的？原创