人工智能初创公司Luma AI今日宣布推出Ray3,这是一款内置推理功能的强大文本转视频AI模型,专为专业人士的高质量电影级视觉制作而设计。
Luma还透露与Adobe公司建立合作伙伴关系,将这一新模型集成到Adobe支持AI的Firefly应用中,该应用是Adobe面向创意工作的一体化软件。
"Ray3是我们构建创意工作智能的第一步,"Luma AI联合创始人兼首席执行官Amit Jain表示。"创意工作是人类最具智力挑战性的活动之一,但直到现在,面向创作者的AI在很大程度上还远远落后于在编程和语言模型分析方面的可能性。"
Ray3的核心能力是思维链推理,使其能够"思考"场景描述并遵循创意专业人士的指令。Jain表示,到目前为止,市场上大多数生成式视频模型更像老虎机:展现出强大的力量但缺乏智能。
通过推理功能,Ray3可以评估自己的输出结果并优化结果,以更好地保持用户的艺术愿景。它可以规划复杂场景,并在呈现输出之前判断其结果是否合理。
该模型的工作方式类似于动画师和电影制作者,在生成最终产品之前先勾画故事板。在这个草图过程中,用户可以与模型协作提供更精确的指令,比如对视频部分进行注释。然后模型可以跟随复杂的多步骤构思。它还理解视觉注释,如在草图阶段在视频静帧上绘制的线条,使其能够更精确地遵循用户指令。
Ray3相比公司上一代模型Ray2有了显著升级,规模是其两倍。它可以使用专业ACES2065-1 EXR标准生成真正的高动态范围视频,支持10位、12位和16位格式。实际上,这为电影制作者和广告商提供了与高端摄像机拍摄素材相同的色彩曝光和照明控制范围。
该模型还可以将几乎任何来源的标准动态范围视频转换为HDR,提供更丰富的色彩和更大的编辑灵活性。例如,Ray3的HDR转换可以在不"冲淡"色彩的情况下照亮过度暗淡的场景。
用户可以从文本和图像生成长达10秒的视频片段。通过用文本注释图像,用户可以对初始输出获得更大的控制权。得益于模型内置的强大构图和视觉理解引擎,拼接多个场景变得更容易,因为它比以前更好地保持了生成之间的一致性。
除了与Adobe的合作伙伴关系外,Luma AI表示Ray3正被日本最大的综合数字营销公司之一Dentsu Digital采用。作为发布合作伙伴,Dentsu打算在其制作流程中使用Ray3,为国内品牌在个性化和故事叙述方面提供更大的控制力和能力。
包括数字营销公司Monks和广告公司StrawberryFrog在内的创意领导者也在采用Ray3来扩展他们的能力。此外,沙特阿拉伯AI公司Humain表示计划将Ray3集成到其面向创意专业人士的企业服务中。
"Ray3不仅仅是升级,更是一次量子飞跃,"Humain首席战略官Steve Plimsoll表示。"通过赋予AI在文字、图像和动作之间进行推理的能力,我们不仅大幅提升了创意输出的速度和保真度,还编织了更智能的防护栏。这意味着更敏锐的想法能更快交付,以及尊重伦理、合规和文化背景的更安全内容。"
Q&A
Q1:Ray3相比前代模型Ray2有什么主要改进?
A:Ray3相比Ray2有显著升级,规模是其两倍,最重要的是增加了思维链推理功能。它可以"思考"场景描述、评估自己的输出并优化结果,还能生成专业级高动态范围视频,支持10位、12位和16位格式,为创作者提供与高端摄像机相同的色彩控制能力。
Q2:Ray3的推理功能是如何工作的?
A:Ray3的推理功能类似于动画师和电影制作者的工作方式,会先勾画故事板再生成最终产品。它可以规划复杂场景,在呈现输出前判断结果是否合理,还能理解用户的视觉注释,如在视频静帧上绘制的线条,从而更精确地遵循用户指令。
Q3:哪些公司正在使用Ray3?
A:除了与Adobe合作集成到Firefly应用中,Ray3还被多家知名公司采用。包括日本最大综合数字营销公司之一Dentsu Digital、数字营销公司Monks、广告公司StrawberryFrog,以及沙特阿拉伯AI公司Humain都计划将Ray3用于其创意制作流程。
好文章,需要你的鼓励
DoorDash确认了一起司机使用AI生成图片伪造配送记录的事件。奥斯汀居民Byrne Hobart在社交媒体上曝光,称司机接单后立即标记为已配送,并提交了一张AI生成的配送照片。该司机疑似使用破解账户,通过DoorDash的历史配送照片功能获取了客户门前的图片。DoorDash发言人表示,经调查后已永久封禁该司机账户,并对客户进行了赔偿,强调公司对欺诈行为零容忍。
瑞士ETH苏黎世联邦理工学院等机构联合开发的WUSH技术,首次从数学理论层面推导出AI大模型量化压缩的最优解。该技术能根据数据特征自适应调整压缩策略,相比传统方法减少60-70%的压缩损失,实现接近零损失的模型压缩,为大模型在普通设备上的高效部署开辟了新路径。
SwitchBot在CES展会上发布了AI MindClip,这是一款可穿戴麦克风设备,能够记录并转录用户说出的每一个声音。该产品配备AI功能,可以总结对话内容并提取有用数据,还能根据判断主动创建提醒事项。虽然类似产品在本届CES上不少见,但SwitchBot希望通过智能化功能在竞争中脱颖而出。目前产品的具体上市时间和价格尚未公布。
弗吉尼亚大学团队创建了Refer360数据集,这是首个大规模记录真实环境中人机多模态交互的数据库,涵盖室内外场景,包含1400万交互样本。同时开发的MuRes智能模块能让机器人像人类一样理解语言、手势和眼神的组合信息,显著提升了现有AI模型的理解准确度,为未来智能机器人的广泛应用奠定了重要基础。