微软 Bing 在周一宣布,其应用程序现推出 Bing 视频创作工具,该工具采用了 OpenAI 的 Sora 模型,支持用户依据文本提示生成视频。
与微软有长期合作关系的 OpenAI 已将 Sora 的视频生成功能仅限于付费客户使用,而其在微软 Bing 中的集成则标志着该功能首次免费提供。
在发布初期,Bing 视频创作工具尚未在桌面端推出,而且生成视频可能需要数小时,即使在使用所谓的 "fast" 模式(仅需几分钟)情况下也是如此。
只要用户登录微软账户,便可通过 Bing 应用免费制作 10 个视频剪辑。此后,每个视频均需支付 100 微软 Rewards 积分。这些积分可通过 Bing 搜索或在 Microsoft Store 购物获得——例如,每次 PC 端使用 Bing 搜索可获得 5 积分,单日上限为 150 积分。
用户一次最多可排队 3 个 5 秒的视频生成作业——目前无法更改视频长度。迄今为止,视频仅支持以竖直 9:16 的宽高比生成,这或许是为了鼓励用户在 TikTok 或 Instagram 上分享他们的 AI 创作。但很快,横屏 9:16 的上传选项也将面世。
好文章,需要你的鼓励
OpenAI首席执行官Sam Altman表示,鉴于投资者的AI炒作和大量资本支出,我们目前正处于AI泡沫中。他承认投资者对AI过度兴奋,但仍认为AI是长期以来最重要的技术。ChatGPT目前拥有7亿周活跃用户,是全球第五大网站。由于服务器容量不足,OpenAI无法发布已开发的更好模型,计划在不久的将来投资万亿美元建设数据中心。
阿里巴巴团队提出FantasyTalking2,通过创新的多专家协作框架TLPO解决音频驱动人像动画中动作自然度、唇同步和视觉质量的优化冲突问题。该方法构建智能评委Talking-Critic和41万样本数据集,训练三个专业模块分别优化不同维度,再通过时间步-层级自适应融合实现协调。实验显示全面超越现有技术,用户评价提升超12%。
英伟达推出新的小型语言模型Nemotron-Nano-9B-v2,拥有90亿参数,在同类基准测试中表现最佳。该模型采用Mamba-Transformer混合架构,支持多语言处理和代码生成,可在单个A10 GPU上运行。独特的可切换推理功能允许用户通过控制令牌开启或关闭AI推理过程,并可管理推理预算以平衡准确性和延迟。模型基于合成数据集训练,采用企业友好的开源许可协议,支持商业化使用。
UC Berkeley团队提出XQUANT技术,通过存储输入激活X而非传统KV缓存来突破AI推理的内存瓶颈。该方法能将内存使用量减少至1/7.7,升级版XQUANT-CL更可实现12.5倍节省,同时几乎不影响模型性能。研究针对现代AI模型特点进行优化,为在有限硬件资源下运行更强大AI模型提供了新思路。