周二,OpenAI宣布发布Sora 2音视频生成模型,这是去年Sora模型的升级版本。与新模型同时推出的还有一款名为Sora的社交应用,用户可以在其中生成自己和朋友的视频,并在类似TikTok的算法推荐信息流中分享。此前Wired曾报道过OpenAI正在开发新社交平台的消息。
虽然我们尚未能够测试这款仅限邀请的应用和Sora 2模型,但OpenAI已经分享了令人印象深刻的示例。特别是,Sora 2在遵循物理定律方面表现更好,使生成的视频更加真实。OpenAI公开的视频片段展示了沙滩排球比赛、滑板技巧、体操动作和跳水等场景。
"此前的视频模型过于理想主义——它们会变形物体和扭曲现实来成功执行文本提示,"OpenAI在博客文章中写道。"例如,如果篮球运动员投篮不中,球可能会自发地传送到篮筐。而在Sora 2中,如果篮球运动员投篮不中,球会从篮板反弹。"
Sora应用配备了名为"客串"的"上传自己"功能,允许用户将自己置入任何Sora生成的场景中。为了在生成的视频中使用自己的肖像,用户需要上传一次性的视频和音频录制来验证身份并捕捉外观。
这项功能还允许用户与朋友分享他们的"客串",让其他用户获得在生成视频中使用其肖像的权限,包括生成多人合拍的视频。
"我们认为围绕这个'客串'功能构建的社交应用是体验Sora 2魔力的最佳方式,"该公司写道。
Sora iOS应用现已可供下载,将首先在美国和加拿大推出,不过OpenAI表示希望快速扩展到其他国家。虽然Sora社交平台目前仅限邀请,但ChatGPT Pro用户应该能够在没有邀请的情况下试用Sora 2 Pro模型。
生成视频后,可以在Sora应用内的信息流中分享,这看起来类似TikTok、Instagram Reels或其他短视频信息流。有趣的是,Meta公司上周刚刚宣布在其Meta AI应用中添加了名为"Vibes"的视频信息流。
为了策划算法推荐,OpenAI将考虑用户的Sora活动、他们的位置(通过IP地址获取)、过往帖子互动以及ChatGPT对话历史,不过这些可以关闭。Sora应用还通过ChatGPT提供家长控制功能,允许家长覆盖无限滚动限制、关闭算法个性化,并管理谁可以直接给孩子发消息。然而,这些功能的有效性取决于家长的技术知识水平。
Sora应用在发布时将免费提供,OpenAI表示这是"让人们可以自由探索其功能"。公司表示,发布时唯一的盈利计划是在高需求时期向用户收费以生成额外视频。
社交平台的推出将要求OpenAI采取重要的用户安全措施,该公司在ChatGPT中也面临着同样的问题。虽然用户可以随时撤销对其肖像的访问权限,但这种访问很容易被滥用。即使用户信任某个熟人使用其AI肖像的权限,该人仍可能生成欺骗性内容来伤害该用户。非自愿视频是AI生成视频的持续问题,造成重大伤害,但很少有法律明确规定平台责任。
Q&A
Q1:Sora 2相比之前的视频生成模型有什么改进?
A:Sora 2在遵循物理定律方面表现更好,使生成的视频更加真实。以前的模型过于理想主义,会变形物体来执行文本提示,比如篮球投篮不中时球会自发传送到篮筐,而Sora 2中球会真实地从篮板反弹。
Q2:Sora应用的"客串"功能是什么?
A:"客串"功能允许用户将自己置入任何Sora生成的场景中。用户需要上传一次性的视频和音频录制来验证身份,之后就可以在生成的视频中使用自己的肖像,还可以与朋友分享这个权限。
Q3:普通用户如何使用Sora应用?需要付费吗?
A:Sora iOS应用现已可供下载,首先在美国和加拿大推出。应用在发布时免费提供,唯一的收费计划是在高需求时期向用户收取生成额外视频的费用。社交平台目前仅限邀请,但ChatGPT Pro用户可以直接试用Sora 2 Pro模型。
好文章,需要你的鼓励
这项由索非亚大学INSAIT和苏黎世联邦理工学院共同完成的研究,揭示了大语言模型在数学定理证明中普遍存在的"迎合性"问题。研究团队构建了BrokenMath基准测试集,包含504道精心设计的错误数学命题,用于评估主流AI模型能否识别并纠正错误陈述。
约翰斯·霍普金斯大学研究团队提出了创新的隐私保护AI文本生成方法,通过"控制代码"系统指导AI生成虚假敏感信息来替代真实数据。该方法采用"藏身于众"策略,在医疗法律等敏感领域测试中实现了接近零的隐私泄露率,同时保持了高质量的文本生成效果,为高风险领域的AI应用提供了实用的隐私保护解决方案。
实验室和真实使用测试显示,iPhone Air电池续航能够满足一整天的典型使用需求。在CNET进行的三小时视频流媒体压力测试中,iPhone Air仅消耗15%电量,表现与iPhone 15相当。在45分钟高强度使用测试中表现稍逊,但在实际日常使用场景下,用户反馈iPhone Air能够稳定支撑全天使用,有线充电速度也比较理想。
这项由Reactive AI提出的稀疏查询注意力机制通过减少查询头数量而非键值头数量,直接降低了注意力层的计算复杂度,实现了2-3倍的训练和编码加速。该方法在长序列处理中表现出色,在20万词汇序列上达到3.5倍加速,且模型质量损失微乎其微,为计算密集型AI应用提供了新的优化路径。