6月29日,著名生成式AI平台Runway宣布,其文生视频平台Gen-3 Alpha向部分用户开启测试。
Gen-3 Alpha是Runway在本月17日最新推出的产品,与上一代相比,光影、质量、构图、文本语义还原、物理模拟、动作一致性/连贯性等方面实现大幅度提升,剑指OpenAI的Sora。
下面「AIGC开放社区」精选了10个非常有代表性的视频案例,并为大家解读这些作品好在哪里。
由于平台压缩的原因,展示的内容可能存在部分模糊的情况,但实际上多数都是720、1080P的高清视频。
例如,获得使用权的用户直接用Gen-3制作了一台绚丽的AI走秀。你没看错下面视频中的所有元素都是AI生成的,相比人类玩出不少花活。
踩着平衡车走秀,脑袋顶着大风车,身披火衣,整体视觉效果相当炸裂有创意。
但如果仔细看的话,模特的摆臂还好,部分模特走路存在顺拐和垫脚的情况,两边的观众手臂、人头也存在问题估计模型还没有训练完善。
需要注意的是,Gen-3无法生成背景音乐,这些所有作品的声音都是自己添加的。目前,只有谷歌的VideoFX可以生成带音乐的视频。
也有人用Gen-3制作了一部短视频,主要讲的是赛车、梦想、永不放弃的励志故事。故事框架、运镜、特写都很好,是一个完整的微电影故事。
拍恐怖电影也没问题,一个昏暗无人的恐怖小镇,到处都是假人模特,偶尔会有黑影闪过。这个视频的恐怖氛围感是拉满了,就是运镜太快了,没有留白的空间,要是慢一点点就好了。
下面这个视频是展示Gen-3强大的文本语义还原能力,该作者表示,她的提示词是“手绘铅笔艺术风格的兔毛女孩”。
这里的兔毛是个错的提示词,应该是“兔子耳朵女孩”,但是Gen-3最后生成的结果还是非常正确的。
一只可怕的怪物从伦敦泰晤士河升起的电影镜头。同样展示了Gen-3强大的文本理解、还原能力。
真实的纪录片拍摄了一只全身覆盖着华丽珠宝、晶洞和珍珠的大蜥蜴走过茂密的植物群的场景。蜥蜴在灯光下闪闪发光。
这个视频主要展示的是Gen-3呈现色彩的能力,看看它背上色彩斑斓的宝石以及反光营造出来的物理效果以及整体光影效果,相当出色几乎不输Sora。
培养皿中生长的黄色霉菌,昏暗的灯光、冷色调、动态运动。这个展示的是物理模拟效果,霉菌的整体生成很细腻,而且是个特写镜头。
一位满脸符文的黑人从水中缓慢地漏出头来,充满神秘感。这个视频主要看人与水的物理效果,看水的波纹与脸发生碰撞后的余波,以及脸颊旁的反射效果,非常出彩。
一群带着赛博朋克眼镜的现代人。这是展示了对人类形象的模拟,尤其是第一个近景的眼睛特写很细腻。
飞越一座爱尔兰的城堡,这座城堡变成了一座摩天大楼的未来赛博朋克城市。这个是展示Gen-3的运镜和场景切换效果,非常丝滑基本实现无缝切换。
看完上面案例是不是有点手痒也想试试啊,自己亲手制作一部微电影。别着急,Runway表示,随着测试的不断推进,很快会向所有人开放使用。
Gen-3地址:https://runwayml.com/blog/introducing-gen-3-alpha/
好文章,需要你的鼓励
雅虎、Quora、Medium等在线媒体品牌正采用名为RSL的新协议,防止AI公司未经授权复制其内容用于模型训练。RSL协议基于RSS标准开发,为AI时代的互联网提供缺失的许可层。该协议旨在成为比robots.txt更强大的技术层,应对目前占互联网流量一半以上的AI爬虫。Reddit、MIT出版社等多家机构已加入该协议。随着AI导致网站流量下降25%,出版商正通过诉讼或授权协议寻求补偿。
腾讯ARC实验室推出AudioStory系统,首次实现AI根据复杂指令创作完整长篇音频故事。该系统结合大语言模型的叙事推理能力与音频生成技术,通过交错式推理生成、解耦桥接机制和渐进式训练,能够将复杂指令分解为连续音频场景并保持整体连贯性。在AudioStory-10K基准测试中表现优异,为AI音频创作开辟新方向。
思科280亿美元收购Splunk后的18个月里,两家公司专注于将Splunk的机器数据分析技术与思科网络产品线融合,打造"思科数据织网"。Splunk平台高级副总裁表示,收购后的协同效应为Splunk带来新动力,公司策略得到放大而非偏离。双方快速整合工程团队,推出AI Canvas等项目,致力于解决企业IT数据孤岛问题。新举措包括将机器数据与业务洞察连接,推出面向Snowflake的联邦搜索功能。
Meta与特拉维夫大学联合研发的VideoJAM技术,通过让AI同时学习外观和运动信息,显著解决了当前视频生成模型中动作不连贯、违反物理定律的核心问题。该技术仅需添加两个线性层就能大幅提升运动质量,在多项测试中超越包括Sora在内的商业模型,为AI视频生成的实用化应用奠定了重要基础。