抖音母公司字节跳动推出了 OmniHuman-1,这是一个能够从单张照片生成逼真人物视频的 AI 系统。该系统可以让照片中的人物说话、做手势、唱歌、演奏乐器等。
根据周日发布在开放获取档案网站 arXiv 上的一篇研究论文显示:"OmniHuman 的表现显著超越现有方法,能够基于微弱的输入信号(尤其是音频)生成极其逼真的人物视频。无论是人像、半身还是全身图像,该系统都支持任何宽高比的图像输入,能在各种场景下呈现更加生动和高质量的效果。"
在 OmniHuman-1 项目页面上,研究人员分享了展示该工具功能的样例视频。这些示例展示了从多个角度拍摄的手部和身体动作、动画角色、动物,以及被赋予生命的历史人物。
在一段清晰的黑白视频中,爱因斯坦站在黑板前发表演讲,用手势和细微的面部表情强调他的话语:"没有情感的艺术会是什么样子?它将是空洞的。没有情感的生活会是什么样子?它将失去价值。"这仿佛让我们穿越时空,观看这位著名理论物理学家在大学讲课,但画面看起来却像是今天拍摄的。
南加州大学安纳伯格传播与新闻学院临床副教授 Freddy Tran Nager 在观看样例视频后接受采访时表示:"这些视频非常令人印象深刻。如果你想让汉弗莱·鲍嘉重现银幕,我不确定效果如何。但在小屏幕上,特别是在手机上,这些效果令人惊叹。"
该工具使字节跳动(及抖音)正式加入了创造最佳、最逼真的 AI 生成人物视频的激烈竞争。这些数字人物正在各处涌现 - 作为推广产品的虚拟网红、帮助公民使用社会服务的政府官员,以及可以娱乐和与粉丝互动的虚拟名人 - 或令人担忧的是,出现在虚假的政治背书中。
Tran 认为像 OmniHuman 这样的系统可以在教育环境中被师生使用:"我希望玛丽莲·梦露能教我统计学。"由于 OmniHuman 与抖音的关联,他也可以设想疲惫的内容创作者最终会转向虚拟版本的自己来获得喘息的机会。
他说:"或者抖音可能会说:'你知道吗?现在我们可以自己创作视频了。谁还需要真人呢?'"
纽约大学斯坦哈特文化、教育和人类发展学院的兼职教授 Samantha G. Wolfe 也看到了像 OmniHuman 这样的工具的前景和潜在危险。
她在采访中表示:"仅从一张照片创建内容,并使其看起来真的在说话和移动,从技术角度来看是令人着迷的,但也可能带来许多潜在的负面影响。假冒的商业领袖或政治领袖说出不准确的话,可能对企业或国家产生巨大影响。"
Wolfe 说,随着 AI 生成视频变得越来越复杂,风险也随之增加。"当它开始看起来越来越像现实,越来越像真人在做这些事情时,人们相信它的可能性就会变得更大。"
字节跳动团队使用超过 18,700 小时的人类视频数据训练 OmniHuman,结合了文本、音频和身体姿势等多种输入类型。不过,字节跳动没有立即回应请求提供更多关于训练数据的具体细节。
OmniHuman 并不是第一个从单张照片生成视频的 AI 工具,但在 Nager 看来,其独特之处在于开发团队可以访问的庞大训练数据量。他说:"如果你创建了一个抖音视频,很可能你现在已经进入了一个将被用来创建虚拟人类的数据库。"
好文章,需要你的鼓励
OpenAI明确表示要成为互联网一切事物的主导界面。AI智能体正在改变用户的数字习惯,从健康记录分析到购物指导,ChatGPT已经在多个领域扩展影响力。用户快速采用AI工具,但企业和生态系统的适应速度滞后。电商领域的权力分配尚不明确,用户偏好AI驱动的答案优先体验,品牌则推动生成式引擎优化。研究旨在了解用户与企业在AI变革中的适应差异。
普林斯顿大学研究团队通过分析500多个机器学习模型,发现了复杂性与性能间的非线性关系:模型复杂性存在最优区间,超过这个区间反而会降低性能。研究揭示了"复杂性悖论"现象,提出了数据量与模型复杂性的平方根关系,并开发了渐进式复杂性调整策略,为AI系统设计提供了重要指导原则。
微软亚洲研究院开发出革命性的认知启发学习框架,让AI能够像人类一样思考和学习。该技术通过模仿人类的注意力分配、记忆整合和类比推理等认知机制,使AI在面对新情况时能快速适应,无需大量数据重新训练。实验显示这种AI在图像识别、语言理解和决策制定方面表现卓越,为教育、医疗、商业等领域的智能化应用开辟了新前景。