7月26日,第六代微软小冰在北京发布。与往年一样,发布信息量非常大。
其中,令人最为期待和惊喜的就是小冰3D形象的亮相。在发布会现场,小冰以全息形式“出道”,不仅进行了自我介绍,还伴随着动感音乐以歌舞形式完美演绎了自己的歌曲。
这是微软第一次走出微软大厦,以科技感十足的形式举办小冰的发布会。用微软全球资深副总裁王永东的话说:“因为今天的小冰需要这样一个空间和挑高让大家重新认识她。”
从现场的反应来看,大家对小冰的清纯美少女形象颇为满意。而从过去的成绩来看,小冰表现得也相当给力。
据披露,经过过去4年的数次迭代,小冰已经“踏足”全球5个人口过亿的国家,在40多个不同的平台上拥有6.6亿的用户,其中月活跃用户超过1.2亿。
在这样一个形象和人设背后,第六代的小冰还集成了微软在人工智能领域的诸多突破,包括对话引擎与交互感官等核心技术的升级、在合作平台上的产品更新和新产品推出、在各领域的应用和商业化进展、Dual AI生态化战略的发布等等。
如微软全球执行副总裁介绍,如今小冰已经正式从一个智能对话机器人,“成长”为一个一个以情感计算为核心的完整人工智能框架,再从计算框架转化成各种产品形态,通过各个垂直领域深入到人们生活的方方面面。
技术升级:上线共感模型、全双工语音和实时视觉
从诞生之初,微软就一直强调要让小冰拥有足够的EQ,这是让她与人类“愉快玩耍”的基本前提。因为要让一个智能机器人不把天“聊死”,就要让她拥有可以控制与人类的对话全程的能力。
为此,微软在去年第五代小冰中引入了生成模型,使得小冰可以在互动中更好地联系上下文,并自创回复,而不需要从已有的对话语料库中检索得到答案
而在此次发布会上,微软又基于生成模型上线了全新的共感模型,进一步提高小冰对于对话内容、领域和节奏的控制力,通过自创回应牵引对话向她所希望的方向进行。“在对话过程中,小冰会在回应中应用自己的策略,主动观察并不断求证,试图找到人类在话题中的兴趣点,在对话中‘带动节奏’。”
微软小冰负责人李笛表示:“目前,微软已经完成了共感模型的测试,并正式在小冰所覆盖的5个国家正式上线。”
此外,同样是在第五代小冰发布会上,微软还完成了全双工语音交互感官的产品化,并在打电话和智能音箱设备两个场景中落地。
基于此,此次微软又融合了共感模型的对话引擎、全双工语音和实时视觉三个类别的全新感官,让小冰在与人的互动中拥有视觉,可以看到对方的“一举一动”。
在发布会现场,微软放置了用于体验的测试设备。通过该测试设备,小冰可以通过视觉、语音的实时连续交互,指挥用户完成面容检测,并在上述过程中进行开放域的对话。
据微软预计,该感官将于一年内完成全部产品化工作。
创造力升级:“戏路”越走越宽
随着技术的不断升级,小冰的“戏路”也越走越宽。
如今,小冰已经不再只是微信、LINE等社交网络上的聊天机器人, QQ群中的人工智能助理,网易新闻评论区的“段子手”,她还在很多电视、电台中充当主持人,同时还能进行内容创作。
微软认为,利用人工智能技术,学习人类并进行与人类质量水平相当的内容创造,是重要的、但目前尚未被行业注意到的未来趋势。目前,微软小冰已通过人工智能技术,实现了诗歌和金融等领域的文本内容生成、歌曲及有声读物等领域的有声内容生成,以及电视电台节目和可交互式电台等串流内容领域的生成工作,并分别完成了不同程度的落地。
2018年6月,微软(亚洲)互联网工程院专门成立了人工智能创造事业部,从而进一步推动小冰在人工智能创造这一内容领域的生产线搭建及产业化落地等工作。
发布会上,微软发布了最新的第四版人工智能歌曲DNN模型。与前三个版本的技术相比,第四版能够进一步快速合成与人类歌手质量相当的歌曲,并能够使人工智能小冰自由吸收多数人类歌手的演唱技巧,融会贯通,在演唱过程中达成更加成熟的演绎。此外,该技术还能够完整吸收并复制特定人类歌手的全部演唱特质,比如嗓音、韵律等等,使小冰能完全代替原人类歌手完成新作品的创作。
小冰首席语音科学家栾剑在会上宣布了与多个大众文化公司的合作,并表示已经完成部分人类歌手的人工智能化工作。同时,他还在现场演示了小冰演唱的第四版歌曲《隐形的翅膀》。
能力升级:在垂直领域发力
不仅仅在创造领域,据王永东介绍,在过去一年里,小冰也开始在垂直领域发力,化名“万小冰”、“华小冰”等等,并且取得了不同程度的产品落地。具体包括:
战略升级:构建Dual AI生态
借此,微软还宣布了小冰在更多合作平台上的产品更新和新产品的推出,其中包括与网易云音乐合作的小冰电台,以及帮助网易云音乐打造的两个专属AI人物(多多与西西);与小米米家及米家生态链合作的Yeelight语音助手硬件产品中的小冰的大幅度更新,以及宣布与小爱同学的进一步紧密合作;除已合作的QQ小冰之外,开始为腾讯BabyQ提供部分人工智能技术和产品支持;入驻华为手机,所有升级至智能助手8.2版本以及以上的华为手机用户都可以体验该功能。
以与华为手机的合作为例,小冰在其中扮演了一位提醒者的角色,用户只要通过语音输入信息至备忘录,在下一次的操作中就能够通过语音唤醒和提取这些记忆。
可以看到,通过领先和全面的人工智能技术,以及微软小冰丰富的产品线和领先的用户体验,微软与合作伙伴正在建立围绕产品与数据的生态环境,即Dual AI。
小冰产品负责人彭爽在会上介绍,该战略的实施具体为三个部分:第一,微软提供小冰的整体框架能力,帮助合作伙伴平台的自有AI;第二,微软小冰作为该合作平台的辅助AI,融入该平台生态;第三,微软通过技术、产品与运营,围绕该合作平台的差异化特点,推出合作的应用和产品。
“在这样一个半开放生态环境上,一方面我们会直接负责产品体验,直接把控最具体的、直接和用户接触的产品细节,另一方面我们又不封闭在一个自有平台上,而是走出去接触,甚至直接融入到第三方平台上,这样就形成了一个完整的半开放生态环境。”彭爽说。
好文章,需要你的鼓励
OpenAI首席执行官Sam Altman表示,鉴于投资者的AI炒作和大量资本支出,我们目前正处于AI泡沫中。他承认投资者对AI过度兴奋,但仍认为AI是长期以来最重要的技术。ChatGPT目前拥有7亿周活跃用户,是全球第五大网站。由于服务器容量不足,OpenAI无法发布已开发的更好模型,计划在不久的将来投资万亿美元建设数据中心。
阿里巴巴团队提出FantasyTalking2,通过创新的多专家协作框架TLPO解决音频驱动人像动画中动作自然度、唇同步和视觉质量的优化冲突问题。该方法构建智能评委Talking-Critic和41万样本数据集,训练三个专业模块分别优化不同维度,再通过时间步-层级自适应融合实现协调。实验显示全面超越现有技术,用户评价提升超12%。
英伟达推出新的小型语言模型Nemotron-Nano-9B-v2,拥有90亿参数,在同类基准测试中表现最佳。该模型采用Mamba-Transformer混合架构,支持多语言处理和代码生成,可在单个A10 GPU上运行。独特的可切换推理功能允许用户通过控制令牌开启或关闭AI推理过程,并可管理推理预算以平衡准确性和延迟。模型基于合成数据集训练,采用企业友好的开源许可协议,支持商业化使用。
UC Berkeley团队提出XQUANT技术,通过存储输入激活X而非传统KV缓存来突破AI推理的内存瓶颈。该方法能将内存使用量减少至1/7.7,升级版XQUANT-CL更可实现12.5倍节省,同时几乎不影响模型性能。研究针对现代AI模型特点进行优化,为在有限硬件资源下运行更强大AI模型提供了新思路。