微软 Bing 在周一宣布,其应用程序现推出 Bing 视频创作工具,该工具采用了 OpenAI 的 Sora 模型,支持用户依据文本提示生成视频。
与微软有长期合作关系的 OpenAI 已将 Sora 的视频生成功能仅限于付费客户使用,而其在微软 Bing 中的集成则标志着该功能首次免费提供。
在发布初期,Bing 视频创作工具尚未在桌面端推出,而且生成视频可能需要数小时,即使在使用所谓的 "fast" 模式(仅需几分钟)情况下也是如此。
只要用户登录微软账户,便可通过 Bing 应用免费制作 10 个视频剪辑。此后,每个视频均需支付 100 微软 Rewards 积分。这些积分可通过 Bing 搜索或在 Microsoft Store 购物获得——例如,每次 PC 端使用 Bing 搜索可获得 5 积分,单日上限为 150 积分。
用户一次最多可排队 3 个 5 秒的视频生成作业——目前无法更改视频长度。迄今为止,视频仅支持以竖直 9:16 的宽高比生成,这或许是为了鼓励用户在 TikTok 或 Instagram 上分享他们的 AI 创作。但很快,横屏 9:16 的上传选项也将面世。
好文章,需要你的鼓励
韩国科学技术院研究团队提出"分叉-合并解码"方法,无需额外训练即可改善音视频大语言模型的多模态理解能力。通过先独立处理音频和视频(分叉阶段),再融合结果(合并阶段),该方法有效缓解了模型过度依赖单一模态的问题,在AVQA、MUSIC-AVQA和AVHBench三个基准测试中均取得显著性能提升,特别是在需要平衡音视频理解的任务上表现突出。
这项研究利用大语言模型解决科学新颖性检测难题,南洋理工大学团队创新性地构建了闭合领域数据集并提出知识蒸馏框架,训练轻量级检索器捕捉想法层面相似性而非表面文本相似性。实验表明,该方法在市场营销和NLP领域显著优于现有技术,为加速科学创新提供了有力工具。
un?CLIP是一项创新研究,通过巧妙反转unCLIP生成模型来增强CLIP的视觉细节捕捉能力。中国科学院研究团队发现,虽然CLIP在全局图像理解方面表现出色,但在捕捉细节时存在不足。他们的方法利用unCLIP生成模型的视觉细节表示能力,同时保持与CLIP原始文本编码器的语义对齐。实验结果表明,un?CLIP在MMVP-VLM基准、开放词汇语义分割和视觉中心的多模态任务上显著优于原始CLIP和现有改进方法,为视觉-语言模型的发展提供了新思路。
这项研究介绍了RPEval,一个专为评估大语言模型角色扮演能力而设计的新基准。研究团队从法国里尔大学开发的这一工具专注于四个关键维度:情感理解、决策制定、道德对齐和角色一致性,通过单轮交互实现全自动评估。研究结果显示Gemini-1.5-Pro在总体表现上领先,而GPT-4o虽在决策方面表现出色,但在角色一致性上存在明显不足。这一基准为研究人员提供了一个可靠、可重复的方法来评估和改进大语言模型的角色扮演能力。