抖音母公司推出新AI工具：一张照片就能生成逼真视频

字节跳动推出OmniHuman-1 AI系统，能从单张照片生成栩栩如生的人物视频，包括说话、手势、唱歌等动作。该系统在生成逼真人物视频方面表现出色，支持各种比例的图像输入，可应用于多种场景。这项技术展现了AI在视频生成领域的巨大潜力，但也引发了对滥用的担忧。

抖音母公司字节跳动推出了 OmniHuman-1，这是一个能够从单张照片生成逼真人物视频的 AI 系统。该系统可以让照片中的人物说话、做手势、唱歌、演奏乐器等。

根据周日发布在开放获取档案网站 arXiv 上的一篇研究论文显示："OmniHuman 的表现显著超越现有方法，能够基于微弱的输入信号(尤其是音频)生成极其逼真的人物视频。无论是人像、半身还是全身图像，该系统都支持任何宽高比的图像输入，能在各种场景下呈现更加生动和高质量的效果。"

在 OmniHuman-1 项目页面上，研究人员分享了展示该工具功能的样例视频。这些示例展示了从多个角度拍摄的手部和身体动作、动画角色、动物，以及被赋予生命的历史人物。

在一段清晰的黑白视频中，爱因斯坦站在黑板前发表演讲，用手势和细微的面部表情强调他的话语："没有情感的艺术会是什么样子？它将是空洞的。没有情感的生活会是什么样子？它将失去价值。"这仿佛让我们穿越时空，观看这位著名理论物理学家在大学讲课，但画面看起来却像是今天拍摄的。

南加州大学安纳伯格传播与新闻学院临床副教授 Freddy Tran Nager 在观看样例视频后接受采访时表示："这些视频非常令人印象深刻。如果你想让汉弗莱·鲍嘉重现银幕，我不确定效果如何。但在小屏幕上，特别是在手机上，这些效果令人惊叹。"

该工具使字节跳动(及抖音)正式加入了创造最佳、最逼真的 AI 生成人物视频的激烈竞争。这些数字人物正在各处涌现 - 作为推广产品的虚拟网红、帮助公民使用社会服务的政府官员，以及可以娱乐和与粉丝互动的虚拟名人 - 或令人担忧的是，出现在虚假的政治背书中。

Tran 认为像 OmniHuman 这样的系统可以在教育环境中被师生使用："我希望玛丽莲·梦露能教我统计学。"由于 OmniHuman 与抖音的关联，他也可以设想疲惫的内容创作者最终会转向虚拟版本的自己来获得喘息的机会。

他说："或者抖音可能会说：'你知道吗？现在我们可以自己创作视频了。谁还需要真人呢？'"

纽约大学斯坦哈特文化、教育和人类发展学院的兼职教授 Samantha G. Wolfe 也看到了像 OmniHuman 这样的工具的前景和潜在危险。

她在采访中表示："仅从一张照片创建内容，并使其看起来真的在说话和移动，从技术角度来看是令人着迷的，但也可能带来许多潜在的负面影响。假冒的商业领袖或政治领袖说出不准确的话，可能对企业或国家产生巨大影响。"

Wolfe 说，随着 AI 生成视频变得越来越复杂，风险也随之增加。"当它开始看起来越来越像现实，越来越像真人在做这些事情时，人们相信它的可能性就会变得更大。"

字节跳动团队使用超过 18,700 小时的人类视频数据训练 OmniHuman，结合了文本、音频和身体姿势等多种输入类型。不过，字节跳动没有立即回应请求提供更多关于训练数据的具体细节。

OmniHuman 并不是第一个从单张照片生成视频的 AI 工具，但在 Nager 看来，其独特之处在于开发团队可以访问的庞大训练数据量。他说："如果你创建了一个抖音视频，很可能你现在已经进入了一个将被用来创建虚拟人类的数据库。"

来源：Forbes

0赞

好文章，需要你的鼓励

抖音母公司推出新AI工具：一张照片就能生成逼真视频

来源：Forbes

2025

02/06

16:39

分享

点赞

生命科学计算测试专委会正式成立，BioProfile框架引领行业标准建设

超智算完成北京核心智算中心资产收购，加速构筑“3+X”全国算力网络新格局

走出“参数崇拜”：联想用“一体多端”重塑“人的尺度”

从“单点突破”到“一体多端”：拆解天禧AI 3.5进化背后三年的进化哲学

openGauss Summit 2025在京召开，加速行业智能化变革，共建繁荣数据库生态

2025联想天禧AI生态伙伴大会：天禧AI一体多端，与开发者共建个人AI生态

西班牙病毒如何将谷歌带到马拉加

LangChain核心库曝出严重漏洞，AI智能体机密信息面临泄露风险

Mill如何与亚马逊和全食超市达成合作协议

TechCrunch创业大赛中的9家顶尖生物技术初创公司

2025年印度科技领域十大重要发展

中科大发布Live Avatar：AI数字人无限聊天不翻车

最热门的 AI 模型：它们的功能和使用方法

这款古怪的 AI 智能手机可以创建你的数字分身

Faireez 获 750 万美元融资，为租赁市场提供 AI 驱动的酒店式管家服务

Broadcom 大获全胜：70% 大型 VMware 客户购买其最全面解决方案

Peer 获得1050万美元元宇宙引擎投资，推出3D个人星球功能

获 3000 万美元融资，Crogl 发布面向安全分析师的全新 AI "钢铁侠战衣"

Turing 获得 1.11 亿美元融资，估值达到 22 亿美元，为 OpenAI 等大语言模型公司提供关键代码支持

Tavus 推出系列 AI 模型，实现实时人脸交互技术突破

Welevel 获得 570 万美元融资，革新程序化游戏开发

AI 驱动的卓越运营：企业如何通过人人可及的流程智能提升成功

如果您非常迫切的想了解IT领域最新产品与技术信息，那么订阅至顶网技术邮件将是您的最佳途径之一

2025 re:Invent ：亚马逊云科技把Agentic AI生态梳理明白了

电子竞技瞬息万变，Team Liquid的“数据+AI”制胜秘籍

中国移动呼和浩特数据中心：只有高效存力先行，AI才能跑出全力

从“支撑工具”到“智能中枢”，AI原生ERP进化

关注官方公众号

关注官方微博

关注官方喜马拉雅

友情链接

业界热点: