抖音母公司字节跳动推出了 OmniHuman-1,这是一个能够从单张照片生成逼真人物视频的 AI 系统。该系统可以让照片中的人物说话、做手势、唱歌、演奏乐器等。
根据周日发布在开放获取档案网站 arXiv 上的一篇研究论文显示:"OmniHuman 的表现显著超越现有方法,能够基于微弱的输入信号(尤其是音频)生成极其逼真的人物视频。无论是人像、半身还是全身图像,该系统都支持任何宽高比的图像输入,能在各种场景下呈现更加生动和高质量的效果。"
在 OmniHuman-1 项目页面上,研究人员分享了展示该工具功能的样例视频。这些示例展示了从多个角度拍摄的手部和身体动作、动画角色、动物,以及被赋予生命的历史人物。
在一段清晰的黑白视频中,爱因斯坦站在黑板前发表演讲,用手势和细微的面部表情强调他的话语:"没有情感的艺术会是什么样子?它将是空洞的。没有情感的生活会是什么样子?它将失去价值。"这仿佛让我们穿越时空,观看这位著名理论物理学家在大学讲课,但画面看起来却像是今天拍摄的。
南加州大学安纳伯格传播与新闻学院临床副教授 Freddy Tran Nager 在观看样例视频后接受采访时表示:"这些视频非常令人印象深刻。如果你想让汉弗莱·鲍嘉重现银幕,我不确定效果如何。但在小屏幕上,特别是在手机上,这些效果令人惊叹。"
该工具使字节跳动(及抖音)正式加入了创造最佳、最逼真的 AI 生成人物视频的激烈竞争。这些数字人物正在各处涌现 - 作为推广产品的虚拟网红、帮助公民使用社会服务的政府官员,以及可以娱乐和与粉丝互动的虚拟名人 - 或令人担忧的是,出现在虚假的政治背书中。
Tran 认为像 OmniHuman 这样的系统可以在教育环境中被师生使用:"我希望玛丽莲·梦露能教我统计学。"由于 OmniHuman 与抖音的关联,他也可以设想疲惫的内容创作者最终会转向虚拟版本的自己来获得喘息的机会。
他说:"或者抖音可能会说:'你知道吗?现在我们可以自己创作视频了。谁还需要真人呢?'"
纽约大学斯坦哈特文化、教育和人类发展学院的兼职教授 Samantha G. Wolfe 也看到了像 OmniHuman 这样的工具的前景和潜在危险。
她在采访中表示:"仅从一张照片创建内容,并使其看起来真的在说话和移动,从技术角度来看是令人着迷的,但也可能带来许多潜在的负面影响。假冒的商业领袖或政治领袖说出不准确的话,可能对企业或国家产生巨大影响。"
Wolfe 说,随着 AI 生成视频变得越来越复杂,风险也随之增加。"当它开始看起来越来越像现实,越来越像真人在做这些事情时,人们相信它的可能性就会变得更大。"
字节跳动团队使用超过 18,700 小时的人类视频数据训练 OmniHuman,结合了文本、音频和身体姿势等多种输入类型。不过,字节跳动没有立即回应请求提供更多关于训练数据的具体细节。
OmniHuman 并不是第一个从单张照片生成视频的 AI 工具,但在 Nager 看来,其独特之处在于开发团队可以访问的庞大训练数据量。他说:"如果你创建了一个抖音视频,很可能你现在已经进入了一个将被用来创建虚拟人类的数据库。"
好文章,需要你的鼓励
悉尼大学和微软研究院联合团队开发出名为Spatia的创新视频生成系统,通过维护3D点云"空间记忆"解决了AI视频生成中的长期一致性难题。该系统采用动静分离机制,将静态场景保存为持久记忆,同时生成动态内容,支持精确相机控制和交互式3D编辑,在多项基准测试中表现优异。
33年后,贝尔纳多·金特罗决定寻找改变他人生的那个人——创造马拉加病毒的匿名程序员。这个相对无害的病毒激发了金特罗对网络安全的热情,促使他创立了VirusTotal公司,该公司于2012年被谷歌收购。这次收购将谷歌的欧洲网络安全中心带到了马拉加,使这座西班牙城市转变为科技中心。通过深入研究病毒代码和媒体寻人,金特罗最终发现病毒创造者是已故的安东尼奥·恩里克·阿斯托尔加。
马里兰大学研究团队开发ThinkARM框架,首次系统分析AI推理过程。通过将思维分解为八种模式,发现AI存在三阶段推理节律,推理型与传统AI思维模式差异显著。研究揭示探索模式与正确性关联,不同效率优化方法对思维结构影响各异。这为AI系统诊断、改进提供新工具。