还记得2024年2月16日,大过年的,大家兴奋得一夜没睡,被Sora放出来的Demo震惊。
快一年过去了,OpenAI宣布直播12天,头两天大家都在熬夜骂娘。
第三天,奥特曼终于放出了Sora,眼前一黑的是,订阅可以无限生成1080p的pro模式需要高达200刀!
刚放出网址,Sora访问量暴增到不得不在10号凌晨停止注册,还好我们在临关闭之前杀了进去。倒腾一夜付款之后,终于进入成功订阅的页面!
其实在经历了将近一年DIT技术井喷式爆发之后,大家对Sora的期待值其实没有那么高了,毕竟可灵、即梦、海螺、Vidu、PixVerse、混元、智谱等等国内上线的,各种闭源开源类DIT架构的视频模型效果好的,真的太多了!对于真实AI影像的生成大家已经见怪不怪了。
但毕竟是Sora,作为第一个被放出Demo的DIT,AI er还是对它有特殊感情,硬着头皮都在下单。(真的,繁琐的付款真的能拦住百分之九十五的人,国内开的Visa卡一概不行,最后还是找到了一张漂亮国的Visa卡才完成付款,感谢zs同学……)
大家可以先看我们做的Sora测试对比视频和用Sora直出的实验短片!
风格预设、画幅比、分辨率、秒数、并发数、文生视频、图生视频等。
进入网页之后,可以很直观地看到生成内容的UI,包括了画幅比、分辨率、秒数、并发数,非常直观,其实UI设计得蛮好的,但为啥不能直接拖拽图片到网页就能上传,还得另外打开文件选取,略麻烦……
目前支持3种比例,3种分辨率,4种秒数生成,3种并发数量。
上传图片按键旁边有一个风格预设,相当于是一个风格滤镜前置,用于文生视频的话,可以控制统一生成风格。但这个对于专业用户来说,可能意义就不太大了,不过有风格自定义,也算是尽力做到有亮点了吧。
文生视频和图生视频功能就不用多介绍的吧,直接写文字prompt和上传图片,就行……
Sora的文生视频仍然存在很多问题,比如语义理解、对物理空间的理解、对方向的理解,经常会出现主体搞错运动方向的问题。
手部不自然、人物抽搐、3D感过强、动漫效果不佳等等。文生视频作为Sora的主打功能,都这么抽象的话,图生就更惨了。
图生效果之差已经无法用自然语言来描述和概括了,能剪进视频的已经是相对较好的结果了。
图生效果主要差在几个方面,一是前后景无法同时识别,对物理空间的理解能力极差,后景经常性被控住不动;二是经常性出现切镜,而且是乱切,因为创作者会剪辑,理论上我们不需要切镜功能,只需要单个镜头内的镜头运动做好就谢天谢地了。Sora的切镜不仅会改变景别构图,还会直接改画风,太让人崩溃了;三是运动幅度和泛化性问题,Sora图生的运动幅度之差,我已经不想吐槽了,还经常会改颜色饱和度,以及出现频闪问题。
同一套提示词,直接文生和图生的对比,图生还是太灾难了。文生的美感、光影都要差太多了,文生连运动也会经常出现bug,我当时测到这里的时候,人已经快测不下去了……
故事板功能可以用文字、图片、视频来更精准地控制同段时间内的镜头运动。以往生成5-10秒镜头,只能用prompt来“假装”控制镜头运动,但这个故事板功能可以精确你想控制的秒数,且包含了文字、图片、视频三种形态,但目前不支持上传带有人物的视频。
最长可以达到20秒,可以添加多个版面,创意很好,理想也很丰满,但现实是……
我输入了4个镜头的文生视频prompt,把文生故事板拉到对应的时间位置,点击生成,随后就会直出10s视频。
其实挺方便快捷的,用来做概念片和预告片通常是够用的。但也会经常遇到语义理解的问题。有时候你多段输入提示词,比如输入4段,它很经常只会识别一到两段,抽久了也挺崩溃的。
我甚至怀疑Sora的图生跟DIT是不是没有啥关系……怎么会PPT感强成这样?!
我基本不测文生视频,因为文生视频做不了生产力工具,但Sora除了文生,就没有别的可测了。
真的,如果不是Sora,如果不是已经花了200刀,我绝对不会花这么多时间在这上面,去努力寻找200刀的价值,寻找Sora 的闪光点……
视频编辑功能是这次Sora主推的另一个亮点功能,但在图生模型能力这么差的前提下,这些功能在我看来都是白搭……
Sora费劲心思去研究如何做一个服务好创作者的产品,把功能和交互设计得很有新意,但目前的图生模型能力这么差,怎么用!怎么用!!!老天鹅!!!
Recut 重新剪辑:在新的故事板中修剪和扩展该视频
Remix 重新混合:描述变化并根据您的世代创建新视频
Blend 混合:来自一个视频和另一个视频的过渡元素
Loop 循环:根据视频的任何部分创建无缝循环
这里面唯一可能派上用场的就是recut功能,如果我在故事板文生了10秒的视频,里面有1个镜头我不想要了,就可以用recut修整视频。
remix混合的内容其实不太可控,blend其实更像我们传统剪辑里的叠化功能,loop这个功能也可以在剪辑实现。
Sora可能是想把剪辑的功能也涵盖进自己的平台里,想得很美好,可是模型能力跟不上的时候,旁的功能就怎么都顾不上了。
我不喜欢这个视频结尾时女孩脸上的眼泪,就用recut的功能修剪掉,并重新写了后面两个镜头的prompt。
recut重新输出:
其他功能就不展开赘述了,给大家看一下功能截图。
故事板还有一个上传视频的功能,给大家看一段我上传了汤圆(小狗)前后加了提示词后出的视频。
有点难评,2-4秒是我原来的视频,前面和后面都是文生的,都跟汤圆本汤长的不太像。我还测了几个视频是小狗放前面,后面加文生,疯狂抽卡的话也能勉强抽出小狗自然过渡的视频。
基本上也就这些功能了!
订阅一共两档,20刀只能生成50个720p带水印的视频,200刀可以生成500个1080p的视频+无限慢速+无水印下载。
特别鸣谢美丽善良大方人见人爱的JessyJang支持巨额Sora账号!还从黑夜到白天陪着一起Roll视频,请问这样的好朋友哪里找!!!
一些艺术家做的Sora样片,做成这样,真的不知道得抽多少次卡……
Sora的真实光影表现得不错,但这肯定不是一两次抽卡就能直出的视频,大部分镜头看着也都像是文生视频。
这个视频的剪辑节奏很好,但有些不同画风的画面穿插,有点没太懂创作者的意图。我真的很疑惑,需要这么抽卡的产品,这么流畅的画面得抽多久……
这个视频应该是早些时候放出来的片子了。Sora对日本街头、复古类视频的复原都还比较好。
以上这些内容基本都是基于文生视频来创作,目前AI视频创作的主流路径其实是图生视频,为什么艺术家们都选择用Sora创作文生视频,大家可以品一品这背后的创作逻辑。
为什么Sora的识图这么差,为森么!!我测图生视频真的测到奔溃,太难出到好的品质了。
2、Sora目前的文生视频效果还可以,但需要抽卡,很难做有连续性的叙事内容。
文生基本很难保持人物和场景的一致性,所以只能往意识流、偏视觉概念的文生视频“艺术片”去做。
3、有两个亮点,一是故事板概念挺好,但模型能力跟不上;二是文生视频写实感强,但图生不行,就是白搭。
好好写文生视频的prompt和去熟悉产品规律,还是可能也许大概率在抽卡抽到疯的情况下能做出一些好作品吧……
当下国内的AI视频产品追的很紧、也很卷,大家已经看过太多好的效果了,随手应付的4秒时代已经回不去了。除了模型能力,用户也很在乎抽卡率、交互、套餐性价比等等,Sora目前不管从哪个角度来对比,都没有足够优势。
4、如果纯粹为了做AI视频,目前不用买,200刀别买,20刀也没太有必要买。如果有喜欢做文生视频概念片的Sora粉和富哥,那当我没说……
AI技术能更迭、创新、能在未来真正进入成熟期,是每一个创作者都希望能看到的。
可目前还在早期,哪些厂商能坚持下来?用什么样的技术生态走到最后?
现在下定论,也还为时尚早。但我们真切地期望,真的有那一天到来。
我临时赶出来的Sora AI实验短片名字叫《MOVIE ELEMENTS》