周二,OpenAI宣布发布Sora 2音视频生成模型,这是去年Sora模型的升级版本。与新模型同时推出的还有一款名为Sora的社交应用,用户可以在其中生成自己和朋友的视频,并在类似TikTok的算法推荐信息流中分享。此前Wired曾报道过OpenAI正在开发新社交平台的消息。
虽然我们尚未能够测试这款仅限邀请的应用和Sora 2模型,但OpenAI已经分享了令人印象深刻的示例。特别是,Sora 2在遵循物理定律方面表现更好,使生成的视频更加真实。OpenAI公开的视频片段展示了沙滩排球比赛、滑板技巧、体操动作和跳水等场景。
"此前的视频模型过于理想主义——它们会变形物体和扭曲现实来成功执行文本提示,"OpenAI在博客文章中写道。"例如,如果篮球运动员投篮不中,球可能会自发地传送到篮筐。而在Sora 2中,如果篮球运动员投篮不中,球会从篮板反弹。"
Sora应用配备了名为"客串"的"上传自己"功能,允许用户将自己置入任何Sora生成的场景中。为了在生成的视频中使用自己的肖像,用户需要上传一次性的视频和音频录制来验证身份并捕捉外观。
这项功能还允许用户与朋友分享他们的"客串",让其他用户获得在生成视频中使用其肖像的权限,包括生成多人合拍的视频。
"我们认为围绕这个'客串'功能构建的社交应用是体验Sora 2魔力的最佳方式,"该公司写道。
Sora iOS应用现已可供下载,将首先在美国和加拿大推出,不过OpenAI表示希望快速扩展到其他国家。虽然Sora社交平台目前仅限邀请,但ChatGPT Pro用户应该能够在没有邀请的情况下试用Sora 2 Pro模型。
生成视频后,可以在Sora应用内的信息流中分享,这看起来类似TikTok、Instagram Reels或其他短视频信息流。有趣的是,Meta公司上周刚刚宣布在其Meta AI应用中添加了名为"Vibes"的视频信息流。
为了策划算法推荐,OpenAI将考虑用户的Sora活动、他们的位置(通过IP地址获取)、过往帖子互动以及ChatGPT对话历史,不过这些可以关闭。Sora应用还通过ChatGPT提供家长控制功能,允许家长覆盖无限滚动限制、关闭算法个性化,并管理谁可以直接给孩子发消息。然而,这些功能的有效性取决于家长的技术知识水平。
Sora应用在发布时将免费提供,OpenAI表示这是"让人们可以自由探索其功能"。公司表示,发布时唯一的盈利计划是在高需求时期向用户收费以生成额外视频。
社交平台的推出将要求OpenAI采取重要的用户安全措施,该公司在ChatGPT中也面临着同样的问题。虽然用户可以随时撤销对其肖像的访问权限,但这种访问很容易被滥用。即使用户信任某个熟人使用其AI肖像的权限,该人仍可能生成欺骗性内容来伤害该用户。非自愿视频是AI生成视频的持续问题,造成重大伤害,但很少有法律明确规定平台责任。
Q&A
Q1:Sora 2相比之前的视频生成模型有什么改进?
A:Sora 2在遵循物理定律方面表现更好,使生成的视频更加真实。以前的模型过于理想主义,会变形物体来执行文本提示,比如篮球投篮不中时球会自发传送到篮筐,而Sora 2中球会真实地从篮板反弹。
Q2:Sora应用的"客串"功能是什么?
A:"客串"功能允许用户将自己置入任何Sora生成的场景中。用户需要上传一次性的视频和音频录制来验证身份,之后就可以在生成的视频中使用自己的肖像,还可以与朋友分享这个权限。
Q3:普通用户如何使用Sora应用?需要付费吗?
A:Sora iOS应用现已可供下载,首先在美国和加拿大推出。应用在发布时免费提供,唯一的收费计划是在高需求时期向用户收取生成额外视频的费用。社交平台目前仅限邀请,但ChatGPT Pro用户可以直接试用Sora 2 Pro模型。
好文章,需要你的鼓励
企业AI搜索公司Glean宣布年度经常性收入(ARR)达3亿美元,较15个月前的1亿美元增长三倍。尽管谷歌、微软、OpenAI等科技巨头纷纷入局企业AI搜索市场,Glean凭借"上下文图谱"技术深度理解企业业务需求,并帮助客户显著降低AI计算成本。该公司提供按用量计费和混合定价两种模式,客户涵盖Databricks、Reddit、Pinterest及三星等企业。Glean上轮融资后估值达72亿美元。
香港中文大学与MiniMax提出ClaimDiff-RL框架,将图像描述的AI训练从整体打分升级为逐条核查,有效解决了传统方式导致AI"少说保平安"的问题,同时在多项基准测试上超越Gemini-3-Pro-Preview。
杰夫·贝索斯旗下的蓝色起源公司在佛罗里达卡纳维拉尔角进行静态点火测试时,新格伦重型火箭发生爆炸。这是美国历史上最大规模的火箭爆炸之一,也是蓝色起源公司遭遇的最严重失败。所有人员安全,但该事故可能导致新格伦火箭项目长期暂停。此前该火箭已成功完成三次发射,并实现了助推器回收和重复使用。
ParaVT是一个由南洋理工等多校联合提出的并行视频工具调用框架,通过让AI同时分析多段视频并引入PARA-GRPO算法解决训练中的格式崩溃与工具跳过问题,在六项长视频理解测试中平均提升约7.9%。