2023年10月8日,来自45个国家和地区的12500名运动员在400多个体育项目中经过15天激烈角逐后,杭州亚运会正式闭幕。
作为有史以来数字化程度最高的体育盛会,杭州亚运会选取了一位独特的数字人火炬手,进行了亚运会开幕式的点火仪式。
实际上,作为亚运史上首个数字点火仪式,共有1亿多位数字火炬手参与到了这次火炬接力中,甚至在闭幕仪式上,备受关注的数字火炬手“弄潮儿”再次返场,由远及近地驻足于主火炬前,与观众“比心”互动,直至迈向远方化为漫天星辰。
作为一项全民关注的体育赛事,数字人的形象在潜移默化中深入人心。
据亚运会开闭幕式虚拟AR技术及闭幕式数字火炬手技术服务商,世优科技CEO&创始人纪智辉透露,目前世优科技已经为近千家客户提供了数字人相关服务,累计打造的数字人超1000个。
尤其是在AI的加持下,越来越多数字人开始融入人类世界中。
数字人的催化剂
数字人近年来的商业化历程与人工智能技术息息相关,尤其是AI模型的兴起,为数字人商业化再添一把火。
生成式AI对数字人产业最显著的影响,是研发效率的提升。
纪智辉称,“在生成式AI出现之前,数字人的制造成本高昂,生产周期长,大多数数字人企业都只能做定制化内容,用途也比较单一,主要作为数字代言人、虚拟IP使用。”
高成本、定制化,注定了当时数字人的繁华只能浮于表象,批量应用就这样卡在了批量生产这一工程难题上。
直到生成式AI、大模型的出现,让数字人产业从业者看到了曙光。
2022年11月,ChatGPT面向全球发布,作为随后引发百模大战的导火索,ChatGPT的发布也为数字人的研发、突破批量生产的困境提供了一条新思路。
据纪智辉介绍,基于生成式AI技术的自然语言处理模型、3D表情驱动模型等,可以让数字人的动作、表达更生动、更有表现力,更重要的是,生成式AI的强大语言理解和生成能力,能使数字人更好地理解用户的复杂需求和情感,提供更智能、个性化和精准的交互体验,实现自主自发与他人对话互动,让数字人快速“活起来”。
让数字人照进现实
世优科技当下的主力产品——AI数字人多模态交互系统“世优波塔”,在产品适配上,支持数字大屏、AI数字人一体机、PC端以及H5小程序等多种应用终端形态,同时支持私有化部署等集成方案,在大模型的加持下,增强了数字人的智能性、互动性和真实性,打造出的数字人更具沉浸式、个性化体验。
据官方公开数据显示,基于这一平台构建的数字人的交互准确率达到了98%。
在泸州市举办的“泸州40正当红”晚会上,世优科技打造的虚拟IP酒麒麟“酣酣”,就基于AI数字人多模态交互系统“世优波塔”,以世优AI数字人一体机为载体,与现场观众实时自主智能互动,为“酣酣”IP提供数字人“造人”、“养人”、“用人”全栈式服务,让文化艺术实现真正的零距离传播。
这是数字人在文旅行业中的应用,通过这样的技术应用,智慧文旅正在以更符合当代年轻人喜好的方式,为文旅行业赋予更多新的时代元素。
其实不仅仅是文旅行业, 在大模型的加持下,数字人的应用领域逐步拓展。
据悉,世优科技的数字人产品,正以2.5D、3D等形象,在娱乐、金融、电商、教育、医疗、文旅、商业、政务、科研等多个领域得到应用,形成如虚拟医生、虚拟教师、虚拟导游、虚拟顾问、虚拟办事员、虚拟主播、虚拟偶像、虚拟客服等身份,真正融入到了人类生活中。
不过,纪智辉指出,目前定制化数字人的成本依然比较高,无法普及到普通个人用户,而生成式数字人打造只能套用视觉模板生成,无法让每一位用户按自己的喜好风格打造专属数字人,行业依然需要降本增效,继续深耕。
此外,就行业发展趋势,他也指出,数字人的规模化正在逐步落地中,尤其是在生成式AI与数字人融合发展后,但落地增速已经从前期的高速,逐渐放缓,“如果行业能够突破现在算法、算力、数据的瓶颈,数字人的规模会重新进入到高速发展阶段。”
好文章,需要你的鼓励
OpenAI首席执行官Sam Altman表示,鉴于投资者的AI炒作和大量资本支出,我们目前正处于AI泡沫中。他承认投资者对AI过度兴奋,但仍认为AI是长期以来最重要的技术。ChatGPT目前拥有7亿周活跃用户,是全球第五大网站。由于服务器容量不足,OpenAI无法发布已开发的更好模型,计划在不久的将来投资万亿美元建设数据中心。
阿里巴巴团队提出FantasyTalking2,通过创新的多专家协作框架TLPO解决音频驱动人像动画中动作自然度、唇同步和视觉质量的优化冲突问题。该方法构建智能评委Talking-Critic和41万样本数据集,训练三个专业模块分别优化不同维度,再通过时间步-层级自适应融合实现协调。实验显示全面超越现有技术,用户评价提升超12%。
英伟达推出新的小型语言模型Nemotron-Nano-9B-v2,拥有90亿参数,在同类基准测试中表现最佳。该模型采用Mamba-Transformer混合架构,支持多语言处理和代码生成,可在单个A10 GPU上运行。独特的可切换推理功能允许用户通过控制令牌开启或关闭AI推理过程,并可管理推理预算以平衡准确性和延迟。模型基于合成数据集训练,采用企业友好的开源许可协议,支持商业化使用。
UC Berkeley团队提出XQUANT技术,通过存储输入激活X而非传统KV缓存来突破AI推理的内存瓶颈。该方法能将内存使用量减少至1/7.7,升级版XQUANT-CL更可实现12.5倍节省,同时几乎不影响模型性能。研究针对现代AI模型特点进行优化,为在有限硬件资源下运行更强大AI模型提供了新思路。