周二,OpenAI宣布发布Sora 2音视频生成模型,这是去年Sora模型的升级版本。与新模型同时推出的还有一款名为Sora的社交应用,用户可以在其中生成自己和朋友的视频,并在类似TikTok的算法推荐信息流中分享。此前Wired曾报道过OpenAI正在开发新社交平台的消息。
虽然我们尚未能够测试这款仅限邀请的应用和Sora 2模型,但OpenAI已经分享了令人印象深刻的示例。特别是,Sora 2在遵循物理定律方面表现更好,使生成的视频更加真实。OpenAI公开的视频片段展示了沙滩排球比赛、滑板技巧、体操动作和跳水等场景。
"此前的视频模型过于理想主义——它们会变形物体和扭曲现实来成功执行文本提示,"OpenAI在博客文章中写道。"例如,如果篮球运动员投篮不中,球可能会自发地传送到篮筐。而在Sora 2中,如果篮球运动员投篮不中,球会从篮板反弹。"
Sora应用配备了名为"客串"的"上传自己"功能,允许用户将自己置入任何Sora生成的场景中。为了在生成的视频中使用自己的肖像,用户需要上传一次性的视频和音频录制来验证身份并捕捉外观。
这项功能还允许用户与朋友分享他们的"客串",让其他用户获得在生成视频中使用其肖像的权限,包括生成多人合拍的视频。
"我们认为围绕这个'客串'功能构建的社交应用是体验Sora 2魔力的最佳方式,"该公司写道。
Sora iOS应用现已可供下载,将首先在美国和加拿大推出,不过OpenAI表示希望快速扩展到其他国家。虽然Sora社交平台目前仅限邀请,但ChatGPT Pro用户应该能够在没有邀请的情况下试用Sora 2 Pro模型。
生成视频后,可以在Sora应用内的信息流中分享,这看起来类似TikTok、Instagram Reels或其他短视频信息流。有趣的是,Meta公司上周刚刚宣布在其Meta AI应用中添加了名为"Vibes"的视频信息流。
为了策划算法推荐,OpenAI将考虑用户的Sora活动、他们的位置(通过IP地址获取)、过往帖子互动以及ChatGPT对话历史,不过这些可以关闭。Sora应用还通过ChatGPT提供家长控制功能,允许家长覆盖无限滚动限制、关闭算法个性化,并管理谁可以直接给孩子发消息。然而,这些功能的有效性取决于家长的技术知识水平。
Sora应用在发布时将免费提供,OpenAI表示这是"让人们可以自由探索其功能"。公司表示,发布时唯一的盈利计划是在高需求时期向用户收费以生成额外视频。
社交平台的推出将要求OpenAI采取重要的用户安全措施,该公司在ChatGPT中也面临着同样的问题。虽然用户可以随时撤销对其肖像的访问权限,但这种访问很容易被滥用。即使用户信任某个熟人使用其AI肖像的权限,该人仍可能生成欺骗性内容来伤害该用户。非自愿视频是AI生成视频的持续问题,造成重大伤害,但很少有法律明确规定平台责任。
Q&A
Q1:Sora 2相比之前的视频生成模型有什么改进?
A:Sora 2在遵循物理定律方面表现更好,使生成的视频更加真实。以前的模型过于理想主义,会变形物体来执行文本提示,比如篮球投篮不中时球会自发传送到篮筐,而Sora 2中球会真实地从篮板反弹。
Q2:Sora应用的"客串"功能是什么?
A:"客串"功能允许用户将自己置入任何Sora生成的场景中。用户需要上传一次性的视频和音频录制来验证身份,之后就可以在生成的视频中使用自己的肖像,还可以与朋友分享这个权限。
Q3:普通用户如何使用Sora应用?需要付费吗?
A:Sora iOS应用现已可供下载,首先在美国和加拿大推出。应用在发布时免费提供,唯一的收费计划是在高需求时期向用户收取生成额外视频的费用。社交平台目前仅限邀请,但ChatGPT Pro用户可以直接试用Sora 2 Pro模型。
好文章,需要你的鼓励
研究人员基于Meta前首席AI科学家Yann LeCun提出的联合嵌入预测架构,开发了名为JETS的自监督时间序列基础模型。该模型能够处理不规则的可穿戴设备数据,通过学习预测缺失数据的含义而非数据本身,成功检测多种疾病。在高血压检测中AUROC达86.8%,心房扑动检测达70.5%。研究显示即使只有15%的参与者有标注医疗记录,该模型仍能有效利用85%的未标注数据进行训练,为利用不完整健康数据提供了新思路。
西湖大学等机构联合发布TwinFlow技术,通过创新的"双轨道"设计实现AI图像生成的革命性突破。该技术让原本需要40-100步的图像生成过程缩短到仅需1步,速度提升100倍且质量几乎无损。TwinFlow采用自我对抗机制,无需额外辅助模型,成功应用于200亿参数超大模型,在GenEval等标准测试中表现卓越,为实时AI图像生成应用开辟了广阔前景。
AI云基础设施提供商Coreweave今年经历了起伏。3月份IPO未达预期,10月收购Core Scientific计划因股东反对而搁浅。CEO Michael Intrator为公司表现辩护,称正在创建云计算新商业模式。面对股价波动和高负债质疑,他表示这是颠覆性创新的必然过程。公司从加密货币挖矿转型为AI基础设施提供商,与微软、OpenAI等巨头合作。对于AI行业循环投资批评,Intrator认为这是应对供需剧变的合作方式。
中山大学等机构联合开发的RealGen框架成功解决了AI生成图像的"塑料感"问题。该技术通过"探测器奖励"机制,让AI在躲避图像检测器识别的过程中学会制作更逼真照片。实验显示,RealGen在逼真度评测中大幅领先现有模型,在与真实照片对比中胜率接近50%,为AI图像生成技术带来重要突破。