抖音母公司字节跳动推出了 OmniHuman-1,这是一个能够从单张照片生成逼真人物视频的 AI 系统。该系统可以让照片中的人物说话、做手势、唱歌、演奏乐器等。
根据周日发布在开放获取档案网站 arXiv 上的一篇研究论文显示:"OmniHuman 的表现显著超越现有方法,能够基于微弱的输入信号(尤其是音频)生成极其逼真的人物视频。无论是人像、半身还是全身图像,该系统都支持任何宽高比的图像输入,能在各种场景下呈现更加生动和高质量的效果。"
在 OmniHuman-1 项目页面上,研究人员分享了展示该工具功能的样例视频。这些示例展示了从多个角度拍摄的手部和身体动作、动画角色、动物,以及被赋予生命的历史人物。
在一段清晰的黑白视频中,爱因斯坦站在黑板前发表演讲,用手势和细微的面部表情强调他的话语:"没有情感的艺术会是什么样子?它将是空洞的。没有情感的生活会是什么样子?它将失去价值。"这仿佛让我们穿越时空,观看这位著名理论物理学家在大学讲课,但画面看起来却像是今天拍摄的。
南加州大学安纳伯格传播与新闻学院临床副教授 Freddy Tran Nager 在观看样例视频后接受采访时表示:"这些视频非常令人印象深刻。如果你想让汉弗莱·鲍嘉重现银幕,我不确定效果如何。但在小屏幕上,特别是在手机上,这些效果令人惊叹。"
该工具使字节跳动(及抖音)正式加入了创造最佳、最逼真的 AI 生成人物视频的激烈竞争。这些数字人物正在各处涌现 - 作为推广产品的虚拟网红、帮助公民使用社会服务的政府官员,以及可以娱乐和与粉丝互动的虚拟名人 - 或令人担忧的是,出现在虚假的政治背书中。
Tran 认为像 OmniHuman 这样的系统可以在教育环境中被师生使用:"我希望玛丽莲·梦露能教我统计学。"由于 OmniHuman 与抖音的关联,他也可以设想疲惫的内容创作者最终会转向虚拟版本的自己来获得喘息的机会。
他说:"或者抖音可能会说:'你知道吗?现在我们可以自己创作视频了。谁还需要真人呢?'"
纽约大学斯坦哈特文化、教育和人类发展学院的兼职教授 Samantha G. Wolfe 也看到了像 OmniHuman 这样的工具的前景和潜在危险。
她在采访中表示:"仅从一张照片创建内容,并使其看起来真的在说话和移动,从技术角度来看是令人着迷的,但也可能带来许多潜在的负面影响。假冒的商业领袖或政治领袖说出不准确的话,可能对企业或国家产生巨大影响。"
Wolfe 说,随着 AI 生成视频变得越来越复杂,风险也随之增加。"当它开始看起来越来越像现实,越来越像真人在做这些事情时,人们相信它的可能性就会变得更大。"
字节跳动团队使用超过 18,700 小时的人类视频数据训练 OmniHuman,结合了文本、音频和身体姿势等多种输入类型。不过,字节跳动没有立即回应请求提供更多关于训练数据的具体细节。
OmniHuman 并不是第一个从单张照片生成视频的 AI 工具,但在 Nager 看来,其独特之处在于开发团队可以访问的庞大训练数据量。他说:"如果你创建了一个抖音视频,很可能你现在已经进入了一个将被用来创建虚拟人类的数据库。"
好文章,需要你的鼓励
短视频营销正成为品牌推广的重要方式,但寻找最佳片段并精准分发始终是一大难题。初创公司Clouted通过整合逾10万名自由创作者网络,结合AI技术自动完成视频剪辑与分发策略。其AI系统持续测试不同格式与渠道组合,让每次营销活动都比上一次更精准高效。该公司近日完成700万美元种子轮融资,由Slow Ventures领投,正朝着企业级营销基础设施市场迈进。
CurveBench是由四所高校联合构建的视觉拓扑推理基准,通过让AI识别嵌套闭合曲线的层次包含关系,揭示了顶尖视觉语言模型在空间结构理解上的系统性缺陷。
本月初,Anthropic宣布购买300兆瓦算力的协议,锁定位于田纳西州孟菲斯附近的Colossus 1数据中心全部产能。据悉,Anthropic将在2029年5月前每月向xAI支付12.5亿美元,协议总价值超400亿美元。该交易细节源自SpaceX向SEC提交的S-1文件。xAI此举实质上是将闲置算力变现——近期Grok用户量下滑,大量服务器空闲,xAI由此转型为"新云服务商",向竞争对手出售计算资源。
圣母大学与亚利桑那州立大学联合构建首个真实骗局对话进展预测基准PRESCAM,揭示当前AI模型识别骗局推进逻辑的核心局限。