6月29日,著名生成式AI平台Runway宣布,其文生视频平台Gen-3 Alpha向部分用户开启测试。
Gen-3 Alpha是Runway在本月17日最新推出的产品,与上一代相比,光影、质量、构图、文本语义还原、物理模拟、动作一致性/连贯性等方面实现大幅度提升,剑指OpenAI的Sora。
下面「AIGC开放社区」精选了10个非常有代表性的视频案例,并为大家解读这些作品好在哪里。
由于平台压缩的原因,展示的内容可能存在部分模糊的情况,但实际上多数都是720、1080P的高清视频。
例如,获得使用权的用户直接用Gen-3制作了一台绚丽的AI走秀。你没看错下面视频中的所有元素都是AI生成的,相比人类玩出不少花活。
踩着平衡车走秀,脑袋顶着大风车,身披火衣,整体视觉效果相当炸裂有创意。
但如果仔细看的话,模特的摆臂还好,部分模特走路存在顺拐和垫脚的情况,两边的观众手臂、人头也存在问题估计模型还没有训练完善。
需要注意的是,Gen-3无法生成背景音乐,这些所有作品的声音都是自己添加的。目前,只有谷歌的VideoFX可以生成带音乐的视频。
也有人用Gen-3制作了一部短视频,主要讲的是赛车、梦想、永不放弃的励志故事。故事框架、运镜、特写都很好,是一个完整的微电影故事。
拍恐怖电影也没问题,一个昏暗无人的恐怖小镇,到处都是假人模特,偶尔会有黑影闪过。这个视频的恐怖氛围感是拉满了,就是运镜太快了,没有留白的空间,要是慢一点点就好了。
下面这个视频是展示Gen-3强大的文本语义还原能力,该作者表示,她的提示词是“手绘铅笔艺术风格的兔毛女孩”。
这里的兔毛是个错的提示词,应该是“兔子耳朵女孩”,但是Gen-3最后生成的结果还是非常正确的。
一只可怕的怪物从伦敦泰晤士河升起的电影镜头。同样展示了Gen-3强大的文本理解、还原能力。
真实的纪录片拍摄了一只全身覆盖着华丽珠宝、晶洞和珍珠的大蜥蜴走过茂密的植物群的场景。蜥蜴在灯光下闪闪发光。
这个视频主要展示的是Gen-3呈现色彩的能力,看看它背上色彩斑斓的宝石以及反光营造出来的物理效果以及整体光影效果,相当出色几乎不输Sora。
培养皿中生长的黄色霉菌,昏暗的灯光、冷色调、动态运动。这个展示的是物理模拟效果,霉菌的整体生成很细腻,而且是个特写镜头。
一位满脸符文的黑人从水中缓慢地漏出头来,充满神秘感。这个视频主要看人与水的物理效果,看水的波纹与脸发生碰撞后的余波,以及脸颊旁的反射效果,非常出彩。
一群带着赛博朋克眼镜的现代人。这是展示了对人类形象的模拟,尤其是第一个近景的眼睛特写很细腻。
飞越一座爱尔兰的城堡,这座城堡变成了一座摩天大楼的未来赛博朋克城市。这个是展示Gen-3的运镜和场景切换效果,非常丝滑基本实现无缝切换。
看完上面案例是不是有点手痒也想试试啊,自己亲手制作一部微电影。别着急,Runway表示,随着测试的不断推进,很快会向所有人开放使用。
Gen-3地址:https://runwayml.com/blog/introducing-gen-3-alpha/
好文章,需要你的鼓励
这项由浙江大学与阿里巴巴通义实验室联合开展的研究,通过创新的半在线强化学习方法,显著提升了AI界面助手在多步骤任务中的表现。UI-S1-7B模型在多个基准测试中创造了7B参数规模的新纪录,为GUI自动化代理的发展开辟了新的技术路径。
阿里巴巴联合浙江大学开发的OmniThink框架让AI学会像人类一样慢思考写作。通过信息树和概念池的双重架构,系统能够动态检索信息、持续反思,突破了传统AI写作内容浅薄重复的局限。实验显示该方法在文章质量各维度均显著超越现有最强基线,知识密度提升明显,为长文本生成研究开辟了新方向。
新加坡国立大学研究人员开发出名为AiSee的可穿戴辅助设备,利用Meta的Llama模型帮助视障人士"看见"周围世界。该设备采用耳机形态,配备摄像头作为AI伴侣处理视觉信息。通过集成大语言模型,设备从简单物体识别升级为对话助手,用户可进行追问。设备运行代理AI框架,使用量化技术将Llama模型压缩至10-30亿参数在安卓设备上高效运行,支持离线处理敏感文档,保护用户隐私。
腾讯混元3D 2.0是一个革命性的3D生成系统,能够从单张图片生成高质量的带纹理3D模型。该系统包含形状生成模块Hunyuan3D-DiT和纹理合成模块Hunyuan3D-Paint,采用创新的重要性采样和多视角一致性技术,在多项评估指标上超越现有技术,并提供用户友好的制作平台。作为开源项目,它将大大降低3D内容创作门槛,推动3D技术的普及应用。