在一个婴儿呱呱坠地之前,他/她的胚胎在母体的四十周时间里,会先发育出大脑雏形,紧接着心脏开始跳动,直至四肢长成、五官成型;在开口叫出第一声“妈妈”之前,他/她会用面部表情和肢体动作(主要是哭和笑)表达需求;通常情况下,他/她会在1-2岁学会说话和行走,然后在更往后的时间里接受教育,不断拓展自己的知识体系和专业技能……
创造一个数字虚拟人,如同对以上这些“人类特征”进行模块化拆解和组装的过程——他/她会拥有一个形象,会学会一种或多种语言,会用表情和肢体进行表达,会具备“一技之长”,也可能会被赋予特定的人设。
如果说,是细胞的分裂、生长和分化带来了前一种变化;那么,让后一种情况得以“照进现实”的,无疑是计算机技术的发展、演化和跃迁。
越来越多的虚拟人正在加入并且开始影响人类的生活。毕业于清华大学的学霸华智冰,走在时尚尖端的Ayayi,混迹娱乐圈的洛天依,一夜爆红的柳夜熙,还有被认为是虚拟人技术天花板的财经AI主播N小黑等等。
他们全都“声形并茂”,当然也各有所长。这种相通性和不同点,主要源自三个基本特征的“定位”差异,即——外观、行为和思想。这三个特征的背后是大量技术栈的支撑,涉及众多的领域,包括图形识别、视觉技术、3D建模、CG渲染、动作捕捉、人工智能、计算机语音技术、自然语言处理等等。而一个虚拟人,一般情况下会由人物形象、语音生成、动画生成、音视频合成显示、交互等五个模块构成。(参考《2020年虚拟数字人发展白皮书》)
下面,我们将围绕虚拟人的三个特征和五个模块维度,拆解其制作过程中所需的技术与工具。
外观:创建一副好看的“皮囊”
外观形象的重要性在于,它是我们进行印象刻画和身份识别的最重要参照。所以在创造一个虚拟人时,第一步通常也需要先进行形象设计和建模,然后再结合渲染引擎实现对人物模型的驱动。根据呈现形式,它有2D和3D两大类,其中3D是目前也是往后虚拟人的主流形象。
3D人物形象的生成过程,涉及的一个核心技术是3D建模。它指的是利用三维制作软件通过虚拟三维空间构建出具有三维数据模型的过程,目前已经在工业、电影等领域广为使用,而早期虚拟人(主要用于工业电影)的构建大多使用的也是这一技术。我们非常熟悉的《阿凡达》(Avatar)电影中的角色特效,主要就是基于3D建模+CG(计算机动画)实现的。
但是,随着近年来虚拟人制作需求量的增加,3D建模的缺点开始显现出来。举例来说,它生成的往往是一个静态模型,在绑定关键点之后,需要借助真人(中之人)通过动作捕捉设备进行形体、眼神、动作等的捕捉,然后才能进行驱动和渲染——在虚拟人技术类别中,这被划分为“真人驱动型”虚拟人。一般而言,它的生产周期更长,成本也比较高。
与之对应的是“算法驱动型”虚拟人。它基于的是深度学习模型的三维场景表达和对应的神经渲染管线,可以自驱动学习模特说话时的唇动、表情、语音,以及姿态和动作等等,不仅无需真人参与,还可以实现更快速的渲染,降低制作成本。所以,这种技术方法可以绕过传统3D建模的一些缺点,更适用于虚拟人的规模化制作。
目前来看,两种技术路线各有优劣,当红的虚拟人中既有“真人驱动型”的,也有“算法驱动型”的。而随着人工智能技术的发展,算法、算力和数据的日趋完备,以及虚拟人应用普及化时代的到来,相信越来越多的公司会锁定后一个“赛场”。
其中,非常典型的一个代表是华智冰、N小黑的“缔造者”小冰公司——二者都是通过小冰框架的深度神经网络渲染技术(XNR)生成的。这种技术路径选择与特定的应用场景有一定的关系。
虚拟AI主播“N小黑”
以N小黑为例,他的背后是24小时不间断的内容生产和直播,如果使用3D建模的方法做一个15秒的片子,可能需要长达数月时间,显然无法支持这一场景的实现;但是基于深度神经网络技术,整个过程是全自动化并且实时的,一边输入文本,另一边的人就能动起来。
当然,这种方法更适用于单一场景,比如N小黑的主要工作是财经主播,如果突然要让他去表演太极拳,可能就无法立即实现。针对这种需求,尤其是工业电影的使用场景,3D建模可能更为合适。
行为:无限趋近人类的自然表达
除了时间、成本以及应用场景方面的差异,还值得强调的一点是,相较于传统3D建模技术通过贴片增加细节的方式,由算法驱动生成的虚拟人通过对真人细节的“学习”和“模仿”,在逼真度和自然度的表现也要更好一些。这会进一步影响虚拟人的下一个特征——行为。
虚拟人的行为能力中主要包括了面部表情、肢体动作以及语言,涉及动画生成模块和语音生成模块。其中,面部表情是人类表达情绪的第一道“密码”。但是,早期的虚拟人大多是标准的“微笑营业脸”,即便可以做出其它表情也显得相当僵硬。
按照前文所说,算法驱动可以在很大程度上解决这个问题。比如今年初Unity收购的Ziva Dynamics就是一家精通复杂模拟与模型变形、机器学习与实时角色创作的企业。双方共同创建的名为Emma的数字人就是由机器学习驱动的,她的模型使用了超过30TB的4D数据进行训练,可以呈现出超过 72000个训练好的肌肉形状,让她的面部表情高度逼真且极具情感。
数字人Emma
显然,这并不是单技术或者单学科的成果,而是跨学科的“艺术”呈现。引用Emma对自己的介绍,“这是结合机器学习、深度学习和生物力学尖端技术的成果。而它将从根本上改变制作人类角色的方式。”
肢体动作的表达也是同理。想要让虚拟人根据表达的内容和情绪流畅地切换状态,背后需要更丰富的AI机器学习和深度学习能力,以及生物科学的支持。只有当算法模型中积累了大量真人表情、肢体表达的数据之后,才能让虚拟人像真人无限趋近。
好看的皮囊靠“颜”,有趣的灵魂靠“言”。和表情和动作相比,语言是更直接的表达方式,也是沟通交流的主要通道。而教虚拟人“说话”这件事本身并不算难,基于语音合成技术(TTS),将文本转化为语音,再利用上面所说的各种驱动模型生成对应的唇动、口型、表情,加上自然语言处理(NLP)能力,就能渲染出符合多数场景使用的虚拟人语言交互画面。并且,和人类掌握语言的方式不同,借助于自然语言处理技术,虚拟人还可以更轻松地学习各种不同的语言,做到多语种的输出。
但是,让虚拟人“自然交流”却是更有难度的。在人类世界,这种情感识别能力与“情商”有关,而在虚拟人世界,这与其“思想”有关。
思想:赋予知识与灵魂
一般来说,当一个虚拟人具有能够识别外界,并且能与人进行自然交互的能力,就可以理解为他/她被赋予了“思想”(虚拟人分交互型与非交互型两种,以下内容主要以交互型为例)。
我们显然不希望在跟虚拟人对话时,常常得到答非所问的反馈,也不喜欢跟一个三五番来回就变成话题终结者的虚拟人多费口舌。于是,多模态交互能力在虚拟人世界中“卷”了起来——这背后涉及的是交互模块的调用,是智能化技术水平的体现,是复杂的算法模型的支持。
还以一直主打共情、共感能力的小冰为例:据了解,小冰框架用于产生回复的模型综合了检索模型、生成模型、共感模型,以及对话引导模型,由此可以生成具有共感策略的回复,形成较为完善的对话目的性和逻辑性。就像是两个人在聊天,可能有“废话”,可能会话赶话,但不是笨拙的、机械的问与答。
另外,一个有“灵魂”的虚拟人,其“思想”的个性化定制,会根据应用场景、类型划分、人设定位进行设定,主要受训练数据和模型的影响。
比如,同属于百度的数字人矩阵,百度AI手语主播的训练数据是大量的自然手语语料库,不仅需要结合视觉识别技术的支持,同时,还需要ASR语音识别模型、手语翻译模型、动作生成模型的支持;其它服务型数字人的知识“专业性”则更强,例如针对浦发银行推出的数字人“小浦”,训练数据是金融业务语料,而针对中国联通推出的数字人“小U”,训练数据则是通信业务语料。
央视新闻AI手语主播
当然,有的虚拟人不仅具备“专业技能”,还有更广泛的知识体系。“AI画家”夏语冰也拥有天籁之音;Ayayi不仅是时尚代言人还在成为数字策展人、潮牌主理人——最终,虚拟人就像人类一样可能是多才多艺的,他们与人类的交互也无疑是多模态的,方式上涉及文字、语音、视觉、动作、环境等多种感官,时间上则更要求实时,过高的延时反馈可能会变得难以容忍。
音视频合成显示模块的作用是把语音和动画合成视频之后呈现给用户,这个过程依赖于底层算力的支持。只有足够的算力,才能让超写实人物的实时渲染、复杂的人机对话,以及高门槛的专业知识赋能具备可行性。比如,基于超强的GPU渲染和AI算力能力,英伟达长期以来一直在加速图形渲染的效率,在去年,还实现了对高清3D的实时渲染。
技术进阶,未来可期
无疑,技术的发展正在不断弥合虚拟人的“能力缺口”,拉近虚拟人与人类的距离。随着各类应用需求的广泛衍生,虚拟人将加快步入高速发展阶段。
按照元宇宙的构想,在未来世界,每个人都会拥有至少一个虚拟人。技术进阶,正在让这一切发生,让虚拟人的外观更逼真、行为更灵动、思想更丰富,当然,也让我们对未来充满想象和期待。
好文章,需要你的鼓励
后来广为人知的“云上奥运”这一说法,正是从这一刻起走上历史舞台。云计算这一概念,也随之被越来越多的人所熟知。乘云科技CEO郝凯对此深有感受,因为在2017年春节过后不久,他的公司开始成为阿里云的合作伙伴,加入了滚滚而来的云计算大潮中。同一年,郝凯带领团队也第一次参加了阿里云的“双11”活动,实现了800万元的销售业绩。
随着各行各业数字化变革的不断深入,人类社会正加速迈向智能化。作为智能世界和数字经济的坚实底座,数据中心也迎来了蓬勃发展。面