媒体世界正在快速变化,人工智能则在其中引领潮流。不少专业媒体圈的讨论已经开始转向AI能够接受多少工作,又会有多少传统创意工作将被因此而取代。《Nexus 1945》等预告片则展示出新的可能性,即哪些是预算极低的个人创作者也能够带来出色的作品。而另一方面,财大气粗的主流媒体制作向来对小预算不屑一顾,他们的目标是打造下一部全球票房超10亿美元的大片。也正因为如此,就连谷歌、OpenAI、Meta、微软和英伟达等科技巨头都被吸引了过来。这些企业为文本生视频、2D转3D效果以及根据单帧画面制作动画等需求开发出多种AI模型,并在市场上迅速掀起波澜。然而,真正开辟新局面的还有一波体量较小的AI公司。Runway、LeyLine、Soundraw、Synthesia和Ateliere等公司正在重新定义我们创建、编辑和共享内容的方式。
总部位于西雅图的LeyLine由Yinhan Liu创立,尝试使用AI技术加快高端动画的制作速度与产出效率。他们的软件能够与动画工作室使用的现有计算机图形工具搭配起效。
Liu解释道,“我们的AI模型能够自动执行耗时的任务,例如将2D图像转换为3D资产与平滑动画。过去需要几个小时才能完成的工作,现在几分钟内就可以搞定。”
Leyline的AI方案能够帮助艺术家们快速渲染故事板,并帮助专业人士和业余爱好者们减少繁琐的重复任务、根据2D设计制作出初步3D模型,确保他们能够专注于艺术设计、不再将宝贵的精力浪费在手动操作之上。他们还同时使用自己的AI系统以及来自其他厂商的AI方案。这套软件能够与视频制作工作室业已使用的计算机图形应用程序无缝集成,显著降低潜在客户的上手难度。
除了任务自动化之外,LeyLine还经营着自己的人才市场平台,尝试将工作室与艺术家及自由职业者联系起来。这种动画制作的整体方法旨在简化整个创作过程,迅速完成从构思到最终产品的转化。
LeyLine的团队成员来自西雅图、加拿大、欧洲和亚洲,近期还拉到了Primavera Venture Partners等投资者的支持。其他资助方还包括Taihill Venture和AngelList。该公司正在与早期客户合作,并已成功拉动营收。
Liu的背景也令人印象深刻。她此前曾与伙伴共同创立BirchAI,这是一家旨在简化医疗保健客户支持的初创公司,目前已经被Saility收购。在此之前,她在Facebook工作,是RoBERTa研究论文的第一作者。
在伦敦,Flawless正在改变电影的跨语种本意方式。他们的TrueSync软件能够观察演员的整体表演,而后调整原始初步以匹配新语种的配音口型。这样既能保持演员的精彩表演,又能让配音版在观感上自然顺畅。
Flawless公司联合创始人Scott Mann表示,“我们将能够以前所未有的方式欣赏到外国的优秀电影作品。”
通过使用AI视觉化方式改变影片中的对话,Flawless也开辟了对接全球观众的新方式,同时又不会影响电影的艺术品质。他们还意识到这项技术在配音以外的更多用途,例如针对审查或者受众调整不同的对话内容。
位于纽约的Runway提供30多种AI驱动工具,用于制作和编辑视频及图像。他们基于Web的服务平台希望让不同类型的创作者都能轻松使用高级AI功能。
Runway的工具可以根据文本描述制作出图像和视频,从镜头中删除内容,创建慢动作特效等。他们希望帮助创作者们轻松将自己的灵感转化为现实。
凭借超过9500万美元的资金,Runway正在突破AI辅助创作的极限。好莱坞大制作及众多主要品牌已经开始使用他们的工具。
Soundraw正在通过其AI平台改变音乐制作流程,该平台让创作者可以为他们的项目制作独特的免版税音乐。用户可以调整乐曲节奏、情绪走向和配器等内容,让内容创作者能够轻松将高品质音乐添加到自己的作品当中。
Synthesia能够将文本转换为具有计算机生成演员的逼真视频片段,因此非常适合制作教育内容、企业培训视频和个性化营销活动,带来一种以经济高效方式制作大量视频内容的新途径。
Ateliere正在开发利用AI技术改进整个媒体流程的平台,具体涵盖内容制作、分发以及货币化销售。他们正努力为个性化内容体验和可持续性等复杂挑战寻求答案,希望进一步提高效率并开辟出新的创意可能性。
这些公司的业务表明,AI科技不仅有助于增强人类创造力,同时也开辟了全新的可能性。从自动完成枯燥任务到生成精细化动画,再到打破语言障碍,AI科技正在开启内容创作的新时代。媒体行业现在必须严肃思考生成式AI革命带来的巨大潜力与复杂影响。
LeyLine、Flawless、Runway、Soundraw、Synthesia以及Ateliere等创新型初创公司,已经展示了AI如何增强、而非取代人类拓展创造力的边界。他们的技术有望带来更加高效和便捷的高质量内容制作流程,最终以前所未有的方式推动媒体创作的大众化。
人类与机器创造力之间的界限正愈发模糊,如今引领这一变革的企业正在为未来全面转变的媒体格局奠定基础。AI技术的作用才刚刚起步,它对于行业的影响也很可能像它所创作的内容一样充满活力、又引人注目。
好文章,需要你的鼓励
这项研究提出了ORV(占用中心机器人视频生成)框架,利用4D语义占用作为中间表示来生成高质量的机器人操作视频。与传统方法相比,ORV能提供更精确的语义和几何指导,实现更高的时间一致性和控制精度。该框架还支持多视角视频生成(ORV-MV)和模拟到真实的转换(ORV-S2R),有效弥合了虚拟与现实之间的差距。实验结果表明,ORV在多个数据集上的表现始终优于现有方法,为机器人学习和模拟提供了强大工具。
这项研究由Writer公司团队开发的"反思、重试、奖励"机制,通过强化学习教导大型语言模型生成更有效的自我反思内容。当模型回答错误时,它会生成反思并二次尝试,若成功则奖励反思过程。实验表明,该方法在函数调用和数学方程解题上带来显著提升,最高分别改善18.1%和34.7%。令人惊讶的是,经训练的小模型甚至超越了同家族10倍大的模型,且几乎不存在灾难性遗忘问题。这种自我改进技术为资源受限环境下的AI应用开辟了新方向。
FuseLIP是一项突破性研究,提出了通过早期融合离散标记实现多模态嵌入的新方法。与传统CLIP模型使用独立编码器不同,FuseLIP采用单一编码器同时处理图像和文本标记,实现了更自然的模态交互。研究证明,这种早期融合方法在多种多模态任务上表现优异,特别是在需要理解图像结构而非仅语义内容的任务上。研究还开发了创新的数据集和评估任务,为多模态嵌入研究提供了宝贵资源。
ByteDance与浙江大学合作开发的MERIT是首个专为多语言多条件语义检索设计的基准数据集,包含320,000条跨5种语言的查询和135,000个产品。研究发现现有模型在处理多条件查询时过度关注全局语义而忽略特定条件元素,为此提出CORAL框架,通过嵌入重建和对比学习相结合的方式,使检索性能提升45.9%。这项研究不仅识别了现有方法的关键局限性,还为多条件交错语义检索领域的未来研究奠定了基础。