OpenAI 公司领导在周五的 Discord 办公时间会议中表示,该公司计划最终将其 AI 视频生成工具 Sora 直接整合到其广受欢迎的消费级聊天机器人应用 ChatGPT 中。
目前,Sora 只能通过 OpenAI 在去年 12 月推出的专用网页应用访问,用户可以使用同名的 AI 视频模型生成最长 20 秒的电影级片段。然而,OpenAI 的 Sora 产品负责人 Rohan Sahai 表示,公司计划将 Sora 部署到更多平台,并扩展其创作能力。
OpenAI 在去年 12 月发布之前的几个月里,主要面向创意人员和视频制作工作室推广 Sora。现在,公司正在更加积极地努力扩大其 AI 视频创作工具的受众群。
Sahai 表示,OpenAI 正在积极开发将 Sora 整合到 ChatGPT 中的方案,实现两个产品的融合,但他没有透露具体时间表。他暗示,最终整合到 ChatGPT 中的 Sora 版本可能不会提供与 Sora 网页应用相同程度的控制功能,比如用户编辑和拼接视频的能力。
OpenAI 可能试图通过让用户在聊天机器人中生成 Sora 视频来吸引更多用户使用 ChatGPT。将 Sora 整合到 ChatGPT 中还可能激励用户升级到 ChatGPT 的高级订阅层级,这些订阅可能提供更高的视频生成限制。
Sahai 在办公时间会议中解释说,OpenAI 将 Sora 作为独立网页应用推出的原因之一是为了保持 ChatGPT 的简洁性。
自推出以来,OpenAI 已经扩展了 Sora 的网页体验,为用户提供了更多浏览社区 Sora 生成视频的方式。Sahai 还表示,OpenAI "很想开发" 一个独立的 Sora 移动应用,并提到 Sora 团队正在积极招聘移动端工程师。
OpenAI 还计划将 Sora 的生成能力扩展到图像领域。
Sahai 证实了相关传闻,表示 OpenAI 正在开发一个由 Sora 驱动的 AI 图像生成器。虽然 ChatGPT 已经支持由 OpenAI 的 DALL-E 3 模型驱动的图像生成功能,但 Sora 驱动的图像生成器可能能够让用户创建更加逼真的照片。
Sahai 补充说,OpenAI 还在开发新版本的 Sora Turbo,这是目前驱动 Sora 网页应用的模型。
好文章,需要你的鼓励
很多人担心被AI取代,陷入无意义感。按照杨元庆的思路,其实无论是模型的打造者,还是模型的使用者,都不该把AI放在人的对立面。
MIT研究团队提出递归语言模型(RLM),通过将长文本存储在外部编程环境中,让AI能够编写代码来探索和分解文本,并递归调用自身处理子任务。该方法成功处理了比传统模型大两个数量级的文本长度,在多项长文本任务上显著优于现有方法,同时保持了相当的成本效率,为AI处理超长文本提供了全新解决方案。
谷歌宣布对Gmail进行重大升级,全面集成Gemini AI功能,将其转变为"个人主动式收件箱助手"。新功能包括AI收件箱视图,可按优先级自动分组邮件;"帮我快速了解"功能提供邮件活动摘要;扩展"帮我写邮件"工具至所有用户;支持复杂问题查询如"我的航班何时降落"。部分功能免费提供,高级功能需付费订阅。谷歌强调用户数据安全,邮件内容不会用于训练公共AI模型。
华为研究团队推出SWE-Lego框架,通过混合数据集、改进监督学习和测试时扩展三大创新,让8B参数AI模型在代码自动修复任务上击败32B对手。该系统在SWE-bench Verified测试中达到42.2%成功率,加上扩展技术后提升至49.6%,证明了精巧方法设计胜过简单规模扩展的技术理念。