如果说Veo 3是AI视频界的Regina George,那么Sora就是Cady Heron。这是我在严格测试了这两款热门AI视频生成器后得出的结论。
谷歌的Veo 3是第一个引入同步音频的AI视频模型,为这一轮生成式AI技术浪潮引起了巨大关注。OpenAI的Sora则是新来的女孩,带着新颖的功能受到了热烈追捧。就像经典电影《贱女孩》一样,两者都揭示了一些丑陋但根本性的真相,关于我们社会在AI内容充斥信息流时的发展方向。
在测试初期,Sora 2和Veo 3看起来势均力敌。它们拥有许多相同的功能和特性。从根本上说,它们都能生成带有声音的逼真AI视频片段。一个在限定时间内免费,另一个每月20美元起。但免费的那个比付费版本更慢。
我使用和评测过很多AI图像和视频生成器,但想要选出胜者真是令人沮丧——特别是在AI视频技术的崛起确实带来了更容易制作深度伪造内容、使真实与AI内容更难区分的重大担忧下。
在创建了大量AI视频后,最终胜者浮出水面。有一个服务稍微更好一些。视频流畅度更高,音频更清洁、更贴合。两者在各自声称的功能上都很出色。但北岸高中只能有一个蜂王。以下是我们对新的Sora 2和Veo 3 AI视频模型的测试过程。
Sora概述
Sora是OpenAI的视频生成器。你可能知道OpenAI是制作超受欢迎聊天机器人ChatGPT的公司。Sora也是OpenAI类似TikTok的社交媒体应用的名字。在这次评测中,我们比较的是Sora 2模型,而不是社交应用,与谷歌的Veo 3模型进行对比。这个AI社交媒体应用很独特,但人们对其快速轻松制作深度伪造和错误信息的能力存在诸多担忧。
Sora于2024年12月发布,新的Sora 2模型带来了急需的升级。Sora视频可以达到10到15秒长,支持音频(Sora 2版本),分辨率可达1080p。你可以免费使用Sora,不再需要邀请码。付费ChatGPT计划可以解锁更多功能。
为了识别AI生成的片段,Sora视频包含C2PA元数据和可见的云形跳动水印。OpenAI的隐私政策允许你关闭对内容的AI训练,其图像和视频生成方法概述了如何尝试防止创建有害和不当内容。
Veo 3概述
直到第三代Veo,谷歌的AI视频生成器才真正起飞。我对Veo 2的失望体验很快得到了补救。Veo 3引入的最重要功能也是大型科技/AI公司的首创:带有同步AI生成音频的AI视频。现在看来可能不是什么大事,但当谷歌在2025年I/O大会上发布这个新模型时,它是革命性的。
Veo 3视频在Gemini应用中长8秒,分辨率720p(不过这些规格可以在不同的谷歌AI工具中更改,比如其AI电影制作程序Flow)。Veo 3视频在右下角有可见的"Veo"水印(除非你愿意支付250美元的Ultra计划来移除),以及嵌入在元数据中的不可见SynthID水印。
谷歌的Gemini隐私政策表示,公司可以使用你的个人信息来改进其技术,这就是为什么它建议不要与其分享敏感或机密信息。谷歌的生成式AI禁止使用政策旨在防止创建滥用和非法内容。
视频和音频质量
Sora让你制作更长的视频(10到15秒,Pro用户为25秒),并在生成前选择纵向或横向方向。Veo视频总是8秒长且为横向——你无法改变这一点,在提示中尝试这样做可能不会成功。
除了各个视频的规格,区别优秀AI视频的是一个简单测试:它能遵守我们星球的物理定律吗?当我要求每个服务生成一个芭蕾舞者跳舞时,我希望她能优雅地在地板上滑行——而不是悬浮在3英尺高的空中。Sora和Veo在这方面再次持平。Sora的芭蕾舞者更逼真,但Veo的外星人在舞蹈对战片段中没有长出新的胳膊和腿。这很好地说明了即使是所谓最佳的程序也会在某些时候出错或产生幻觉。
两个程序都能很好地同步音频,不过我对Sora的音频整体更满意。它经常在我没有要求的情况下添加适当的音乐或背景/白噪声。例如,Sora为我的芭蕾舞者添加了古典音乐,为我的咖啡馆视频添加了画面外咖啡师与取拿铁顾客的对话。Veo的音频很好,它是第一个为其功能添加音频的,但我现在必须将优势给Sora,因为它做得更出色。
提示遵循性和速度
Sora和Veo 3都有良好的提示遵循性,意味着它们创建了我要求的视频。测试提示遵循性的最佳方法之一是要求它包含特定文本或音频。Veo 3在创建清晰文本方面更好,正如你在"Katelyn's Cafe"视频中看到的那样。我的名字被拼错得更厉害过,但我对Sora在这里的幻觉感到失望。
衡量提示遵循性的另一种方法是使用更复杂的提示。你的提示不需要过于夸张,但以前的AI模型在否定或排除特征方面有困难——你不希望它包含的东西。我很高兴两者都在否定指令方面表现出色,比如"不要改变盘子的花卉图案"。与之前模型的升级可能要归功于这个优势。
提示遵循性很重要,因为两个程序都没有好的方法来编辑制作完成的视频。Sora草稿文件夹中的"编辑视频"按钮只允许你重写提示并重新生成。对Gemini的后续请求并不总是有效。这很令人沮丧,但我预计两家公司将来都会专注于此。
Veo生成视频更快,即使只是快一分钟。但两者的平均视频生成速度都在2到5分钟之间。
定价
虽然Sora 2在发布后的限定时间内免费,但这并不保证会永远持续。你需要邀请码来使用Sora,无论是通过社交应用还是网页。
你不能免费使用Veo 3;使用它的最便宜方式是谷歌每月20美元的AI Pro计划。Veo 3也可通过Vertex AI、Gemini API和Flow获得。如果你不知道这些面向开发者的工具是什么,你可能无法访问它们。
如果需要生成大量视频,你可能需要从那里升级谷歌计划;生成限制随每个层级增加。我在五个视频后达到限制,被锁定4小时。我建议从尽可能低的计划开始,在玩过工具并了解它如何适应你的工作流程后再升级。
Sora在价格方面明显是赢家,但OpenAI可能最终会让我们付费使用新模型。即便如此,OpenAI的ChatGPT Plus层级也是20美元,与最低的谷歌AI计划相同。从那里开始,将取决于生成限制的差异。
判决:在现实衰败中,Sora略胜一筹
我评测生成式AI创意软件几乎和它存在的时间一样长。但看着Veo 3和Sora并排运行并在5分钟内弹出超逼真视频,有些特别令人恐惧的东西。
AI视频不再是小众迷恋,而是我们新现实的一部分。我是AI专家,但没有水印我无法判断其中一些视频是否是AI生成的。这至少是一种令人不安的感觉,测试Sora和Veo提醒我为什么标记AI内容如此重要。
Sora和Veo是令人印象深刻的程序,可能符合你的需求。如果你已经付费使用ChatGPT或Gemini,没有必要转向另一个。每家公司各自的AI视频生成器都能满足大多数项目。
我必须将最终优势给Sora。它的生成有更流畅的动作、合适的音频和更少的幻觉。生成可能比Gemini慢几秒钟,但这些结果值得等待。它的跳动水印,与Veo的静态水印不同,让我对其创建免费、逼真深度伪造的能力感觉稍微好一些。从技术角度来看,Sora是目前的冠军。
我不能良心上遗漏这样的事实:这两个AI视频模型都使混淆现实与AI变得更容易,并且难以阻止滥用内容的创建。Sora社交媒体应用的主要功能是能够在几乎任何AI视频中使用你和其他人的肖像。名人如《绝命毒师》演员布莱恩·克兰斯顿、人才代理机构和工人工会都推动OpenAI建立更严格的Sora防护措施,OpenAI已经实施。但这些防护措施并不完美。克兰斯顿的担忧是在OpenAI应马丁·路德·金遗产委员会的要求暂时暂停生成马丁·路德·金后几天出现的,此前这位民权领袖的奇怪和种族主义深度伪造视频充斥了应用。谷歌在Veo 3和其AI图像模型方面也遇到了类似问题。
AI行业正在努力创建和实施有效的政策和技术防护措施,以保护版权持有者、名人和公众人物——以及我们所有在线看到这些视频的人。这两个巨头都不能免受这些挑战。
同样值得注意的是,AI视频是一个快速发展的领域。对任一模型的新更新都可能使其实用性飞升或暴跌。Sora的限时免费访问现在是一个优势,但如果OpenAI将Sora放在更昂贵订阅的付费墙后,Veo可能会成为更好的整体选择。
何时使用Sora:Sora最擅长什么
Sora最擅长逼真摄像,最适合业余创作者和AI爱好者。Sora有更多可以切换的应用内设置,如更改视频的方向和长度。Sora视频可能需要多一两分钟才能完成,但你不会像使用Gemini那样快速遇到生成限制。无论好坏,Sora可以毫不费力地生成逼真的产品,如iPhone和一些名人和公众人物。虽然这对我们社会来说不是好事,但它是其AI实力的标志。
何时使用Veo 3:Veo 3最擅长什么
Veo 3更适合有专业头脑的创作者。Veo的创造力和提示遵循性非常出色,其对话流程对典型聊天机器人体验来说会感觉熟悉。我的Veo视频也比Sora视频感觉不那么激烈。例如,我创建的动画Veo甜甜圈比我那个稍微疯狂的Sora甜甜圈要温和可爱得多。我也欣赏你可以在谷歌更专业的AI程序中使用Veo,如Flow,它为你提供比仅在Gemini中获得的更多实用编辑工具。
我们如何测试Sora与Veo 3
为了尽可能公平,我给每个AI提供了每个测试的完全相同提示。我使用各种场景来看每个在哪里表现出色:动画化我的现有照片、复杂的科幻舞蹈对战和超逼真的库存摄像,仅举几例。我通过它们的网络浏览器和移动应用程序测试了它们。
Q&A
Q1:Sora和Veo 3都有哪些主要功能?
A:两者都能生成带有声音的逼真AI视频片段。Sora视频可以达到10-15秒长(Pro用户25秒),支持1080p分辨率,可选择纵向或横向方向。Veo 3视频长8秒,720p分辨率,固定为横向格式。两者都支持同步音频生成。
Q2:在价格方面Sora和Veo 3哪个更优?
A:Sora目前在限定时间内免费使用,但不保证永远免费。Veo 3最便宜的使用方式是谷歌每月20美元的AI Pro计划。从价格角度看Sora暂时占优,但OpenAI最终可能会收费,届时ChatGPT Plus计划也是20美元。
Q3:从技术表现来看哪个AI视频生成器更好?
A:经过严格测试,Sora略胜一筹。它的视频动作更流畅、音频更贴合,幻觉现象更少。虽然生成速度比Veo慢一两分钟,但结果质量更高。Sora在音频同步方面表现更出色,经常自动添加适当的背景音乐或环境音效。
好文章,需要你的鼓励
微软近年来频繁出现技术故障和服务中断,从Windows更新删除用户文件到Azure云服务因配置错误而崩溃,质量控制问题愈发突出。2014年公司大幅裁减测试团队后,采用敏捷开发模式替代传统测试方法,但结果并不理想。虽然Windows生态系统庞大复杂,某些问题在所难免,但Azure作为微软核心云服务,反复因配置变更导致客户服务中断,已不仅仅是质量控制问题,更是对公司技术能力的质疑。
Meta研究团队发现仅仅改变AI示例间的分隔符号就能导致模型性能产生高达45%的巨大差异,甚至可以操纵AI排行榜排名。这个看似微不足道的格式选择问题普遍存在于所有主流AI模型中,包括最先进的GPT-4o,揭示了当前AI评测体系的根本性缺陷。研究提出通过明确说明分隔符类型等方法可以部分缓解这一问题。
当团队准备部署大语言模型时,面临开源与闭源的选择。专家讨论显示,美国在开源AI领域相对落后,而中国有更多开源模型。开源系统建立在信任基础上,需要开放数据、模型架构和参数。然而,即使是被称为"开源"的DeepSeek也并非完全开源。企业客户往往倾向于闭源系统,但开源权重模型仍能提供基础设施选择自由。AI主权成为国家安全考量,各国希望控制本地化AI发展命运。
香港中文大学研究团队开发出CALM训练框架和STORM模型,通过轻量化干预方式让40亿参数小模型在优化建模任务上达到6710亿参数大模型的性能。该方法保护模型原生推理能力,仅修改2.6%内容就实现显著提升,为AI优化建模应用大幅降低了技术门槛和成本。