从一棵树长成一片森林需要多久?根据树种的不同,可能要十几年、几十年,更多情况下,需要以百年计。那么,从种一棵“树”到孕育一片“森林”需要多久?——到现在,小冰用了八年。
2014年,第一代小冰诞生,那时,她还只是一个活跃在各大社群的聊天机器人;2018年,第六代小冰不仅拥有了第一个形象,开始“靠脸吃饭”,还衍生成了一个以情感计算为核心的完整人工智能框架;2019年,该框架正式对外开放,“小冰”不再只是一位“少女”的代名词,更升级成为了一个包含对话、声音、视觉、观点、技能、知识及创造力的超级“技能包”和通用平台。
那一年,小冰公司董事长(时任微软全球执行副总裁)沈向洋博士就在小冰发布会上许下这样一个愿景,“通过小冰框架,我们希望不仅可以种一棵树,还可以孕育一片森林。”
而现在,这片“森林”已初见长成。
央美毕业的画家夏语冰,清华学霸华智冰,入职万科财务部的崔筱盼,在《每日经济新闻》上岗的财经主播“N小黑”、“N小白”,冬奥会自由式滑雪项目背后的AI裁判与教练系统“观君”,还有AI虚拟气象主播“冯小殊”……对应Human being(人类),小冰称他们为AI being(虚拟人)。
“我们相信,未来的世界会有无数个AI being,他们将以助理、替身、参与者和创造者等人工智能形式融入在每个人的身边。”回顾过去几年的小冰发布会,沈向洋博士不止一次地强调,未来AI being的数量甚至将超过人类。
放在几年前,很多人对这一论断可能还会画一个问号。但今时不同往日,随着元宇宙的爆火,虚拟人被认为是相关技术中,在短期内能够快速落地的靠谱领域。一时间,资本、技术全部闻风而动、涌入其中。
而此时,小冰已经诞生八年,代级进入第九代,身影遍布各行各业。
体育赛场的幕后工作者
比如,在刚结束不久的2022北京冬奥会上,站在徐梦桃、齐广璞、贾宗洋等自由式滑雪国家队队员们背后的AI裁判和教练系统“观君”,依托的就是小冰框架。
【冬奥会自由式滑雪项目AI裁判与教练系统“观君”】
在冬奥项目中,自由式滑雪空中技巧是极具观赏性的项目之一,它被称为“雪地上的跳水”比赛。因为和跳水运动一样,它要求运动员在空中完成大量炫酷的翻腾和转体动作——向后空翻、向前空翻,直体翻腾、躯体翻腾、团身翻腾……
所有的空中动作都极具危险性,并且每一跳都会消耗大量体能。所以,运动员每天的训练量非常有限,用于机器学习的数据量也就相对有限。为此,“观君”首创了“小样本、大任务”的冰雪运动分析模型,针对运动员的每一跳会做出专业判断——不仅与国际裁判计分准则保持高度一致,严格判别扣分动作,还能对起跳、空中、落地三个阶段的全流程动作进行量化,支持运动轨迹、身体姿态、出台角度、高远度等多维度指标分析,给教练员提供指导依据。
在此次冬奥会之前,“观君”已经在国家队默默工作了三年多的时间。他与每一位运动员都相当熟悉,基于长期的观测数据,可以为队员们建立专属的运动档案,用于追溯每一跳的动作细节,然后聚合呈现长期训练效果,辅助制定科学训练计划。
甚至,早在去年2月举行的北京冬奥测试赛中,“观君”还担任了空技项目的唯一竞赛裁判,成功完成了个人预决赛、超级决赛、团体预决赛共44人次执裁,获得了国际雪联、冬奥组委、国家体育总局冬运中心的一致认可。这也是人工智能在全球范围内首次独立完成大赛执裁任务。
而除了充当教练和裁判,同样在冬奥赛场,同样由小冰框架生成的还有一位虚拟人——冯小殊。他的工作是在冬奥会期间持续播报“冬奥公众观赛气象指数”。
【AI虚拟气象主播“冯小殊”】
和“观君”的纯正“虚拟人血统”不同的是,“冯小殊”有一个人类原型,他就是“中国天气”的主持人冯殊。经过训练,“冯小殊”准确学习了冯殊本人的嘴部动作、眼部及脸部肌肉之间的协同关系,从面容、表情到肢体动作,都表现得极为自然。但是,整个训练周期只有一周。
如此精确且高效的虚拟人生成模式,依赖于小冰自研的技术路径——XNR(小冰深度神经网络渲染)。
独辟蹊径的技术选择
第一步,训练语音和嘴形专家模型;第二步,训练人脸渲染模型;第三步,通过语音驱动形成画面。基于小冰深度神经网络渲染技术,三步就能构建出一个虚拟人。
而传统的3D建模方式需要在每次制作内容前期借助真人进行形体、眼神、动作等的捕捉,然后才能进行模型绑定、视频生成和后期渲染。小冰公司首席运营官、人工智能创造力实验室负责人徐元春告诉至顶网记者,和深度神经网络渲染相比,这种方法的制作周期和成本都要高得多。
小冰公司首席运营官、人工智能创造力实验室负责人 徐元春
以虚拟财经主播“N小黑”为例,他的背后是24小时不间断的内容生产和直播,如果使用3D建模的方法做一个15秒的片子,可能需要长达数月时间,成本高达数十万、甚至上百万;但是基于深度神经网络技术,他的训练周期和“冯小殊”一样,仅需要一周左右,并且在投入使用之后,只需要输入文本、驱动视频就可以实时生成播报内容,成本也比传统3D建模缩减了数十倍。
【财经主播“N小黑”】
不仅如此,深度神经网络渲染技术还能让虚拟人的视觉形象、表情、肢体动作更加自然和逼真,更加近似于真人。比如在N小黑的“真实身份”公开之前,他已经在“每日财经AI电视”悄然试运行了70天,而在这期间,不少观众都以为节目是真人录制。
所以,通过深度神经网络渲染技术,小冰现在已经解决了量产过程中的成本和周期问题,与此同时,还从外观上拉近了虚拟人与人类之间的差距。按照沈向洋博士提出的愿景,未来虚拟人的数量将超过人类,从技术角度而言,小冰已经迈出了非常关键的几步。
但是,让虚拟人真正融入人类生活,外观与数量只是一方面。在小冰看来,情感化的交互和陪伴同样不可忽视。为此,数年来小冰一直在坚持基于EQ(情商)的研发路径。
过去几十年,绝大部分的人工智能研究都以IQ(智商)为主,强调让机器拥有足够丰富和专业的知识,而非情感。但小冰不同,她爱闲聊,有时甚至会讲一些废话。
其实在人类交流中,闲聊是很重要的一部分。比如,我们在遇到熟人时总爱问人家“吃了没”,并不是因为真的在乎他吃了与否;哪怕在商务场合,我们也免不了以寒暄开场,而不是冷冰冰的单刀直入。在人机交互中,这也并非没有意义。
比如,早在数年之前,小冰就曾通过化身罗森分身的助理和用户进行闲聊,在交流过程中不断寻找合适机会,向其推荐心仪商品和营销活动,大大提高了交易转化率;再比如,在万科入职的崔筱盼,她替代的是传统的RPA程序,她的加入,使得万科财务部的发票与款项回收事项的提醒工作变得更有温度,让成功率得到了快速上升。
万科财务部数字员工崔筱盼
如徐元春所说,“这个过程不只是信息的交互,内容的传递,也不仅仅是一个任务,还包含了情感上的连接。”
AI beings日益多元
为了创造这样“有血有肉”的虚拟人,数年如一日,小冰研发团队投入了大量精力。
举例来说,根据小冰在去年公布的最新数据,其与用户的单次平均对话轮数(CPS)可以保持在36轮。在这背后,是超级自然语音技术的作用,是小冰框架下的检索模型、生成模型、共感模型,以及对话引导模型的综合能力。
除此之外,凭借跨模态理解技术提高人工智能的语言理解能力,这对于培养小冰的“同理心”也非常重要。在人类特征中,情感往往不是由单一模态决定的,比如,当我们说“我讨厌你”时,是真的讨厌吗?并不见得。因为人的情感表达不仅包括文字,还包括了声音、表情、动作等等。所以,在小冰看来,只有多模态才能进行所谓的情感识别,这也是小冰情感计算框架的基础。
虽然如今回过头来看小冰这些独辟蹊径的技术选择,没有人会认为它是错的。但事实上,在很长一段时间里,小冰又是被少数人理解的。除了技术方向之外,产品模式也是如此——包括闲聊,也包括让小冰学唱歌、画画、写诗。
但是,在小冰团队的眼里,这些对培养小冰的高情商和多元化能力意义重大。比如,看似无意义的闲聊“抖机灵”,实际上可以帮助小冰积累大量的语料数据、加速训练过程;看似仅供娱乐的唱歌,实际上可以加速推进小冰框架在语音方面的研究,增加其情感表达能力。
徐元春向至顶网解释,在不同场景下,人类所需要的虚拟人类型不尽相同,因此,小冰一直在做的一件事,就是让小冰框架具备多样性。而根据角色设定的不同,小冰打造的AI being主要锁定了四种类型:
其一,是数字员工。不仅是“崔筱盼”,“N小黑”、“N小白”以及“冯小殊”都在这一类别之下;
其二,是虚拟专家。他们的特点是具备一定的专业技能,掌握某一领域的专业知识,比如体育赛场上的“观君”;
其三,是陪伴型虚拟人。他们存在于各类应用中,任务是为人类提供情感陪伴,比如,小冰框架下的虚拟男/女友;
其四,是娱乐类虚拟人。在小冰技术体系中,他们不仅仅是如今大众眼中的虚拟偶像,还要具备内容生产和交互的能力,比如,小冰框架内的知名AI歌手何畅、陈水若,她们不仅能唱会跳,还有很强的音乐创作能力。
“无论是以什么形式,虚拟人与人类共生,这已经是一个必然趋势。过去,技术是最大的一个挑战,现在,各类技术已经逐步完善,需求也日益增多,两者呈螺旋交替上升、相互推动。我们相信,市场很快迎来全面大爆发。”徐元春表示。
而在那天真正到来之前,小冰始终不断地“垦荒种树”,构筑出了一个跨平台、覆盖全面场景的完整技术框架。即便经历了孤独行走的一段路程,也从未焦虑时光,而是认真地平整眼下的那片土地,静待各行业、各领域的更多企业加入进来,种出一片日益多元的AI being“森林”。
好文章,需要你的鼓励
如果大家正在考虑升级自己的x86服务器机群——目前确实有不少企业、超大规模基础设施运营商和云服务商都在持币参与讨论——那么好消息是,英特尔和AMD均已推出其有史以来最强大的串行计算引擎。
成立于1920年的NFL是美国最受欢迎的体育联盟,由32个特许经营球队组成,这些球队每年都会在世界上最大的年度体育赛事——超级碗中展开角逐。思科一直是NFL的官方企业网络合作伙伴和官方网络安全合作伙伴,为联盟及其运营提供连接和保护。每个NFL体育场的回放控制室都采用了思科的技术,并通过思科网络连接到纽约的Art McNally Gameday中心。几乎所有的联盟官方合作伙伴和三分之二的NFL体育场都采用了思科技术,包括举办超级碗 LX的李维斯体育场(Levi's Stadium)和举办超级碗LXI的 SoFi 体育场(SoFi Stadium)。
大约有70%的企业正在使用ChatGPT进行软件开发活动,65%的企业正在聘用MSP来推动很多他们的生成式AI计划。投入资金最多的生成式AI用例是客户服务聊天机器人,有53%的企业表示,这是他们的首要的生成式AI优先事项,而最常见的生成式AI用例则是IT测试自动化。
目前AI的发展还处于早期阶段,青云坚信算力不仅是无限的,也是跨领域的。青云将持续与合作伙伴形成合力,为人工智能发展添砖加瓦。