在 ChatGPT 的新 AI 图像生成器上线仅一天后,社交媒体上就已经充斥着大量以吉卜力工作室风格创作的 AI 生成梗图。吉卜力工作室是制作了《龙猫》和《千与千寻》等重磅电影的日本著名动画工作室。
在过去 24 小时内,我们看到了 AI 生成的吉卜力风格版本的埃隆·马斯克、《指环王》和唐纳德·特朗普总统的图像。OpenAI 的 CEO Sam Altman 似乎也将自己的个人头像换成了一张吉卜力风格的图片,这很可能是用 GPT-4o 的原生图像生成器制作的。用户们似乎在向 ChatGPT 上传现有图片,并要求聊天机器人以新的风格重新创作。
OpenAI 的这次更新紧随 Google 在其 Gemini Flash 模型中发布类似 AI 图像功能之后。Google 的功能在 3 月初也曾引发热议,当时人们用它来移除图片水印。
OpenAI 和 Google 的最新工具让重现受版权保护作品的风格变得前所未有的简单——只需输入文字提示即可。这些新的 AI 图像功能似乎重新引发了几起针对生成式 AI 模型开发商诉讼案件的核心问题:如果这些公司使用受版权保护的作品进行训练,是否违反了版权法?
Neal & McDevitt 律师事务所的知识产权律师 Evan Brown 表示,像 GPT-4o 原生图像生成器这样的产品目前处于法律的灰色地带。根据 Brown 的说法,风格本身并不受版权保护,这意味着 OpenAI 仅仅生成看起来像吉卜力电影风格的图像并不违法。
然而,Brown 表示,OpenAI 很可能是通过训练其模型使用了数百万帧吉卜力电影画面才达到这种相似效果。即使是这种情况,多个法院仍在裁定用受版权保护的作品训练 AI 模型是否属于合理使用范畴。
Brown 在采访中说:"我认为这引发了我们这几年一直在问自己的同样问题:抓取网页内容并复制到这些数据库中,会带来什么样的版权侵权影响?"
《纽约时报》和多家出版商正在起诉 OpenAI,声称该公司在未经适当署名或付费的情况下使用受版权保护的作品训练其 AI 模型。类似的诉讼也针对其他主要 AI 公司提起,包括 Meta 和 AI 图像生成初创公司 Midjourney。
OpenAI 发言人在接受 TechCrunch 采访时表示,虽然 ChatGPT 拒绝复制"在世艺术家的个人风格",但 OpenAI 允许复制"更广泛的工作室风格"。当然,值得注意的是,确实有在世艺术家因开创其工作室独特风格而受到赞誉,比如吉卜力工作室的联合创始人宫崎骏。
显然,用户也能够使用 GPT-4o 的原生图像生成功能重现其他工作室和艺术家的风格。有人制作了赛斯博士风格的 Marc Andreessen 肖像,还有一对夫妇将他们的婚纱照重新创作成皮克斯风格。
我们测试了几个流行的 AI 图像生成器——包括 Google 的 Gemini、xAI 的 Grok 和 Playground.ai——以检验它们模仿吉卜力工作室风格的能力。我们发现 OpenAI 的新图像生成器最能准确复制这家动画工作室的风格。
一只真实的狗 (左) 和 ChatGPT 以吉卜力工作室风格生成的狗的图像 (右)。
目前,OpenAI 和 Google 的新图像功能展示了 AI 模型在生成能力上的重大突破,这似乎推动了使用量的激增。周三,OpenAI 因需求量太大而推迟向免费用户推出其新图像工具。这对这些公司来说可能是当下最重要的事情,但我们还需要等待法院对其合法性作出裁决。
好文章,需要你的鼓励
这项研究由新加坡国立大学团队开发的DualParal技术,通过创新的双重并行架构解决了AI视频生成的长度限制问题。该方法同时在时间帧和模型层两个维度实现并行处理,配合分块降噪机制、特征缓存和协调噪声初始化策略,使生成分钟级长视频成为可能。实验表明,在生成1,025帧视频时,DualParal比现有技术减少了高达6.54倍的延迟和1.48倍的内存成本,同时保持了高质量的视频输出,为内容创作者提供了生成更长、更复杂视频叙事的新工具。
SoloSpeech是约翰霍普金斯大学研究团队开发的创新语音处理技术,针对"鸡尾酒会效应"问题提出了全新解决方案。该系统通过级联生成式管道整合压缩、提取、重建和校正过程,实现了高质量目标语音提取。与传统判别式模型相比,SoloSpeech采用无需说话者嵌入的设计,直接利用提示音频的潜在空间信息与混合音频对齐,有效避免特征不匹配问题。在Libri2Mix及多个真实世界数据集上的评测显示,SoloSpeech在清晰度、质量和泛化能力上均达到了领先水平,为语音分离技术开辟了新方向。
这项由北京大学深圳研究生院、伟湾大学、腾讯ARC实验室和兔小贝智能联合研究的Sci-Fi框架,通过创新的对称约束机制,解决了视频帧间插值中的关键问题。研究团队设计了轻量级EF-Net模块,增强结束帧约束力,使其与起始帧形成平衡影响,从而生成更自然流畅的中间过渡帧。实验证明,该方法在各种场景下都优于现有技术,特别适用于电影制作、动画创作和视频编辑领域,显著降低了人力成本。
这项来自西北大学和谷歌的研究突破了传统马尔可夫强化学习的局限,通过贝叶斯自适应RL框架解释了大语言模型中涌现的反思性推理行为。研究团队提出的BARL算法通过维护多个解题策略的后验分布,指导模型何时何地进行反思性探索,在数学推理任务上展现出显著优势,比基线方法减少高达50%的标记使用量,同时提高了准确率。这一研究不仅解释了"为什么反思有用",还提供了实用的指导原则,为AI系统的自适应推理能力开辟了新方向。