字节跳动发布Seedance 2.0多模态AI视频生成模型
Seedance 2.0能够考虑摄像机运动、视觉效果和动作细节。
科技巨头在最新AI模型竞赛中持续较量,字节跳动推出了下一代视频生成器。这家TikTok背后的中国公司在博客文章中表示,Seedance 2.0支持结合文本、图像、视频和音频的多模态提示。
公司声称该模型"在生成质量上实现了实质性飞跃",在生成包含多个主体的复杂场景以及遵循指令方面都有显著改进。用户可以通过向Seedance 2.0提供最多九张图像、三个视频片段和三个音频片段来优化文本提示。
该模型能够生成长达15秒的带音频视频片段,同时考虑摄像机运动、视觉效果和动作细节。据字节跳动介绍,它还能参考基于文本的故事板。
过去一年中,AI驱动的视频生成模型变得更加先进,谷歌Veo 3增加了生成音频支持片段的能力,OpenAI推出了Sora 2以及一款允许用户创建具有"超真实动作和声音"视频的新应用。AI初创公司Runway也发布了其AI视频模型的新版本,声称具有"前所未有的"准确性。
在字节跳动分享的一个示例中,展示了两名花样滑冰运动员一起表演的场景,公司表示Seedance 2.0能够"可靠地执行一系列高难度动作——包括同步起跳、空中旋转和精确着冰——同时严格遵循现实世界的物理定律。"
社交媒体上的用户已经开始展示这个新工具的能力,有人发布了一个AI生成的视频,其中包含布拉德·皮特和汤姆·克鲁斯相似形象的电影式打斗场景。《死侍》编剧雷特·里斯转发了这个视频并评论道:"我不得不说,我们可能要完蛋了。"
其他帖子展示了Seedance 2.0生成动漫风格片段、卡通、电影级科幻场景以及看起来像内容创作者制作的视频的能力。目前尚不清楚Seedance 2.0提供什么版权保护措施,在X平台上快速搜索会发现大量包含《龙珠Z》、《恶搞之家》、《宝可梦》等角色的片段。
目前,Seedance 2.0仅通过字节跳动的Dreamina AI平台和其AI助手豆包提供服务。尚不清楚它是否会进入TikTok——特别是现在该应用在美国已经易主。
Q&A
Q1:Seedance 2.0有什么特别的功能?
A:Seedance 2.0是字节跳动推出的多模态AI视频生成模型,支持结合文本、图像、视频和音频的提示。用户可以提供最多九张图像、三个视频片段和三个音频片段来优化生成效果,能够生成长达15秒的带音频视频片段。
Q2:Seedance 2.0在技术上有哪些突破?
A:该模型在生成质量上实现了实质性飞跃,特别是在生成包含多个主体的复杂场景以及遵循指令方面。它能够考虑摄像机运动、视觉效果和动作细节,严格遵循现实世界的物理定律,可以生成从动漫风格到电影级科幻场景的各类视频。
Q3:普通用户如何使用Seedance 2.0?
A:目前Seedance 2.0仅通过字节跳动的Dreamina AI平台和其AI助手豆包提供服务。尚不清楚它是否会进入TikTok平台,特别是考虑到TikTok在美国的现状。用户需要通过这些指定平台来体验该技术。
好文章,需要你的鼓励
今天讲的出海案例是开创电气,一家金华手持式电动工具制造商,在越南基地完成首款产品验收并形成80万台年产能力。
牛津、MIT等机构联合发布GauntletBench,测试显示最强AI智能体完成率仅19%,而普通人类完成率超80%,揭示AI在时间感知、图形理解和三维推理上的真实短板。
研究人员意外发现,标准MOSFET晶体管可同时模拟神经元和突触行为,形成"神经突触随机存取存储器"(NSRAM)。该技术仅需一至两个晶体管即可实现传统需数十乃至数百个元件才能完成的神经信号处理,且与现有硅基制造工艺完全兼容,良率达100%。未来有望应用于边缘AI及高能效神经形态芯片,长远或可挑战GPU地位。
论文提出"盲目信任问题":现有视频AI将每帧画面等权处理,遭遇干扰时准确率暴跌却浑然不知。Robust-TO通过逐帧质量评估、置信度引导工具路由和分级证据推理三阶段框架解决这一缺陷。