抖音母公司字节跳动推出了 OmniHuman-1,这是一个能够从单张照片生成逼真人物视频的 AI 系统。该系统可以让照片中的人物说话、做手势、唱歌、演奏乐器等。
根据周日发布在开放获取档案网站 arXiv 上的一篇研究论文显示:"OmniHuman 的表现显著超越现有方法,能够基于微弱的输入信号(尤其是音频)生成极其逼真的人物视频。无论是人像、半身还是全身图像,该系统都支持任何宽高比的图像输入,能在各种场景下呈现更加生动和高质量的效果。"
在 OmniHuman-1 项目页面上,研究人员分享了展示该工具功能的样例视频。这些示例展示了从多个角度拍摄的手部和身体动作、动画角色、动物,以及被赋予生命的历史人物。
在一段清晰的黑白视频中,爱因斯坦站在黑板前发表演讲,用手势和细微的面部表情强调他的话语:"没有情感的艺术会是什么样子?它将是空洞的。没有情感的生活会是什么样子?它将失去价值。"这仿佛让我们穿越时空,观看这位著名理论物理学家在大学讲课,但画面看起来却像是今天拍摄的。
南加州大学安纳伯格传播与新闻学院临床副教授 Freddy Tran Nager 在观看样例视频后接受采访时表示:"这些视频非常令人印象深刻。如果你想让汉弗莱·鲍嘉重现银幕,我不确定效果如何。但在小屏幕上,特别是在手机上,这些效果令人惊叹。"
该工具使字节跳动(及抖音)正式加入了创造最佳、最逼真的 AI 生成人物视频的激烈竞争。这些数字人物正在各处涌现 - 作为推广产品的虚拟网红、帮助公民使用社会服务的政府官员,以及可以娱乐和与粉丝互动的虚拟名人 - 或令人担忧的是,出现在虚假的政治背书中。
Tran 认为像 OmniHuman 这样的系统可以在教育环境中被师生使用:"我希望玛丽莲·梦露能教我统计学。"由于 OmniHuman 与抖音的关联,他也可以设想疲惫的内容创作者最终会转向虚拟版本的自己来获得喘息的机会。
他说:"或者抖音可能会说:'你知道吗?现在我们可以自己创作视频了。谁还需要真人呢?'"
纽约大学斯坦哈特文化、教育和人类发展学院的兼职教授 Samantha G. Wolfe 也看到了像 OmniHuman 这样的工具的前景和潜在危险。
她在采访中表示:"仅从一张照片创建内容,并使其看起来真的在说话和移动,从技术角度来看是令人着迷的,但也可能带来许多潜在的负面影响。假冒的商业领袖或政治领袖说出不准确的话,可能对企业或国家产生巨大影响。"
Wolfe 说,随着 AI 生成视频变得越来越复杂,风险也随之增加。"当它开始看起来越来越像现实,越来越像真人在做这些事情时,人们相信它的可能性就会变得更大。"
字节跳动团队使用超过 18,700 小时的人类视频数据训练 OmniHuman,结合了文本、音频和身体姿势等多种输入类型。不过,字节跳动没有立即回应请求提供更多关于训练数据的具体细节。
OmniHuman 并不是第一个从单张照片生成视频的 AI 工具,但在 Nager 看来,其独特之处在于开发团队可以访问的庞大训练数据量。他说:"如果你创建了一个抖音视频,很可能你现在已经进入了一个将被用来创建虚拟人类的数据库。"
好文章,需要你的鼓励
Cato Networks 推出全球首个基于 SASE 的局域网新一代防火墙 (NGFW),实现了局域网和云防火墙的完全融合。该方案旨在解决企业平均需要 55 天才能修复 50% 关键漏洞的问题,通过自更新和自维护功能,消除了手动打补丁和紧急修复的需求,为企业提供始终最新的安全防护。
WhatsApp 正在测试新的消息主题功能,该功能将允许用户更好地组织和跟踪群聊中的对话。继上月推出彩色聊天主题、关联社交媒体账号以及支持图片和语音的 ChatGPT 功能后,这项新功能将进一步提升用户体验,特别是在繁忙的群聊中追踪特定话题时更为便捷。
Orange 与卫星运营商 Telesat 建立战略商业合作伙伴关系,通过在法国贝尔塞奈昂奥特建设 Telesat Lightspeed 地面站,结合 Orange 在 26 个国家和地区的地面站网络,为偏远地区提供低延迟、安全可靠的卫星通信服务。此次合作将增强 Orange 的全球数字基础设施韧性,促进偏远地区的数字包容。
世界宽带协会 (WBBA) 研究表明,人工智能在网络领域已发挥重要作用,特别是在宽带部署前期阶段的应用可以优化基础设施投资并提升收益。同时,Net5.5G 网络架构的全球应用案例,以及 Wi-Fi 通话等新技术的发展,都将推动下一代智能互联网络的实现。