周二,OpenAI宣布发布Sora 2音视频生成模型,这是去年Sora模型的升级版本。与新模型同时推出的还有一款名为Sora的社交应用,用户可以在其中生成自己和朋友的视频,并在类似TikTok的算法推荐信息流中分享。此前Wired曾报道过OpenAI正在开发新社交平台的消息。
虽然我们尚未能够测试这款仅限邀请的应用和Sora 2模型,但OpenAI已经分享了令人印象深刻的示例。特别是,Sora 2在遵循物理定律方面表现更好,使生成的视频更加真实。OpenAI公开的视频片段展示了沙滩排球比赛、滑板技巧、体操动作和跳水等场景。
"此前的视频模型过于理想主义——它们会变形物体和扭曲现实来成功执行文本提示,"OpenAI在博客文章中写道。"例如,如果篮球运动员投篮不中,球可能会自发地传送到篮筐。而在Sora 2中,如果篮球运动员投篮不中,球会从篮板反弹。"
Sora应用配备了名为"客串"的"上传自己"功能,允许用户将自己置入任何Sora生成的场景中。为了在生成的视频中使用自己的肖像,用户需要上传一次性的视频和音频录制来验证身份并捕捉外观。
这项功能还允许用户与朋友分享他们的"客串",让其他用户获得在生成视频中使用其肖像的权限,包括生成多人合拍的视频。
"我们认为围绕这个'客串'功能构建的社交应用是体验Sora 2魔力的最佳方式,"该公司写道。
Sora iOS应用现已可供下载,将首先在美国和加拿大推出,不过OpenAI表示希望快速扩展到其他国家。虽然Sora社交平台目前仅限邀请,但ChatGPT Pro用户应该能够在没有邀请的情况下试用Sora 2 Pro模型。
生成视频后,可以在Sora应用内的信息流中分享,这看起来类似TikTok、Instagram Reels或其他短视频信息流。有趣的是,Meta公司上周刚刚宣布在其Meta AI应用中添加了名为"Vibes"的视频信息流。
为了策划算法推荐,OpenAI将考虑用户的Sora活动、他们的位置(通过IP地址获取)、过往帖子互动以及ChatGPT对话历史,不过这些可以关闭。Sora应用还通过ChatGPT提供家长控制功能,允许家长覆盖无限滚动限制、关闭算法个性化,并管理谁可以直接给孩子发消息。然而,这些功能的有效性取决于家长的技术知识水平。
Sora应用在发布时将免费提供,OpenAI表示这是"让人们可以自由探索其功能"。公司表示,发布时唯一的盈利计划是在高需求时期向用户收费以生成额外视频。
社交平台的推出将要求OpenAI采取重要的用户安全措施,该公司在ChatGPT中也面临着同样的问题。虽然用户可以随时撤销对其肖像的访问权限,但这种访问很容易被滥用。即使用户信任某个熟人使用其AI肖像的权限,该人仍可能生成欺骗性内容来伤害该用户。非自愿视频是AI生成视频的持续问题,造成重大伤害,但很少有法律明确规定平台责任。
Q&A
Q1:Sora 2相比之前的视频生成模型有什么改进?
A:Sora 2在遵循物理定律方面表现更好,使生成的视频更加真实。以前的模型过于理想主义,会变形物体来执行文本提示,比如篮球投篮不中时球会自发传送到篮筐,而Sora 2中球会真实地从篮板反弹。
Q2:Sora应用的"客串"功能是什么?
A:"客串"功能允许用户将自己置入任何Sora生成的场景中。用户需要上传一次性的视频和音频录制来验证身份,之后就可以在生成的视频中使用自己的肖像,还可以与朋友分享这个权限。
Q3:普通用户如何使用Sora应用?需要付费吗?
A:Sora iOS应用现已可供下载,首先在美国和加拿大推出。应用在发布时免费提供,唯一的收费计划是在高需求时期向用户收取生成额外视频的费用。社交平台目前仅限邀请,但ChatGPT Pro用户可以直接试用Sora 2 Pro模型。
好文章,需要你的鼓励
随着5G流量快速增长和新用例不断涌现,网络运营商需要在最小化环境影响的同时管理密集网络使用。Orange法国与爱立信合作开展创新试验,测试FDD大规模MIMO天线集成无线电,优化高流量区域频谱使用。双方还探索Cloud RAN和Open RAN架构,通过虚拟化RAN功能实现灵活的软件中心网络。合作重点关注利用AI驱动的自动化和意图驱动技术提升能源效率,在不影响性能的前提下动态调整网络资源以降低能耗。
谷歌DeepMind等顶级机构联合研究揭示,当前12种主流AI安全防护系统在面对专业自适应攻击时几乎全部失效,成功率超过90%。研究团队通过强化学习、搜索算法和人类红队攻击等多种方法,系统性地突破了包括提示工程、对抗训练、输入过滤和秘密检测在内的各类防护技术,暴露了AI安全评估的根本缺陷。
微软正在将Windows 11改造为"智能代理操作系统",在任务栏中集成AI代理功能。新功能允许AI代理在后台执行任务,用户可通过任务栏图标查看进度状态。微软还在文件资源管理器中集成Copilot,提供文档摘要、文件问答等功能。此外,Click to Do功能得到改进,可将网页表格转换为Excel文档。这些AI功能采用本地AI和云端AI混合模式,为用户提供更智能的操作体验。
西蒙弗雷泽大学和Adobe研究院联合开发的MultiCOIN技术,能够将两张静态图片转换为高质量的过渡视频。该技术支持轨迹、深度、文本和区域四种控制方式,可单独或组合使用。采用双分支架构和分阶段训练策略,在运动控制精度上比现有技术提升53%以上,为视频制作提供了前所未有的灵活性和精确度。