Midjourney 的惊喜:让大语言模型写作更具创造力的新研究

Midjourney 与纽约大学合作,发布了一项提升大语言模型创造性写作能力的研究。他们提出了两种新技术:多样化直接偏好优化(DDPO)和多样化比值偏好优化(DORPO),旨在扩大模型输出的多样性,同时保持连贯性和可读性。这项研究不仅展示了 Midjourney 在文本领域的野心,也为企业 AI 团队、产品开发者和内容创作者提供了改进 AI 生成文本的新方法。

Midjourney 以其领先的 AI 图像生成器而闻名——根据第三方统计,其 Discord 频道拥有近 2000 万用户,加上网站用户数量可能更多——但其野心正在开始扩张。

继 2024 年夏末宣布正在开发自己的计算和 AI 硬件后,本周该公司与纽约大学 (NYU) 的机器学习专家合作发布了一篇新的研究论文,探讨如何训练基于文本的大语言模型(如 Meta 的开源 Llama 和 Mistral 的同名源模型)以实现更具创造性的写作。

这项合作发表在 AI 代码社区 Hugging Face 上的研究论文中,介绍了两种新技术——多样化直接偏好优化 (DDPO) 和多样化比值偏好优化 (DORPO),旨在扩大可能输出的范围,同时保持连贯性和可读性。

对于一家以扩散 AI 图像生成模型而闻名的公司来说,Midjourney 在文本类大语言模型创造力方面的新思路表明,它并不局限于视觉领域,而且一张图片可能并不真的胜过千言万语。

这家小型自主创业公司会推出 Midjourney 原生大语言模型或现有大语言模型的微调版本吗?我联系了 Midjourney 创始人 David Holz,但尚未收到回复。

无论是否会推出 Midjourney 自己的大语言模型,其新研究的影响已超越学术范畴,可能会推动企业 AI 团队、产品开发人员和内容创作者在改进 AI 生成文本方面掀起新一轮的大语言模型训练浪潮。

这也表明,尽管 AI 模型提供商最近对新的多模态和推理语言模型表现出浓厚兴趣并加大投资,但在经典的基于 Transformer 的文本大语言模型方面,在认知和性能上仍有很大的提升空间。

问题:AI 生成的写作趋向于同质化输出

在事实型问答或编程辅助等领域,人们期望大语言模型生成单一的最佳回答。

然而,创意写作本质上是开放式的,这意味着对单个提示可以有多种有效的回应。

以 Midjourney 研究人员提供的例子来说,给出"写一个关于月球上的狗的故事"这样的提示,大语言模型可以探索多个不同的路径,比如:

一只在月球任务后被意外遗留的宇航员宠物狗。

一只发现自己身处未来犬类太空殖民地的狗。

一只与外星物种成为朋友的滞留狗。

尽管存在这些可能性,但经过指令调优的大语言模型往往会收敛到相似的故事情节和主题。这种现象发生是因为:

后训练技术优先考虑用户偏好而非原创性,强化了流行但重复的回应。

指令调优往往会平滑变化,使模型倾向于"安全"的回应而非独特的回应。

现有的促进多样性的技术(如温度调节)仅在推理时起作用,而不是融入模型的学习过程中。

这导致故事创作同质化,AI 生成的创意写作显得重复,缺乏惊喜或深度。

解决方案:修改后训练方法以优先考虑多样性

为克服这些限制,研究人员引入了 DDPO 和 DORPO,这是现有偏好优化方法的两个扩展。这些方法的核心创新在于使用偏差——衡量一个回应与其他回应的差异程度——来指导训练。

工作原理如下:

在训练过程中,模型会收到一个写作提示和多个可能的回应。

对同一提示的每个回应都会与其他回应进行比较,并计算偏差分数。

罕见但高质量的回应在训练中被赋予更大的权重,鼓励模型从多样化的例子中学习。

通过将偏差纳入直接偏好优化 (DPO) 和比值偏好优化 (ORPO),模型学会产生高质量但更加多样化的回应。

这种方法确保 AI 生成的故事不会收敛到单一可预测的结构,而是探索更广泛的角色、场景和主题——就像人类作家可能做的那样。

Midjourney 的研究人员如何实现这一目标

该研究涉及使用来自 Reddit 社区 r/writingPrompts(用户发布提示并以短故事回应的社区)的数据集训练大语言模型进行创意写作任务。

研究人员使用了两个基础模型进行训练:

Meta 的 Llama-3.1-8B (Llama 3 系列的 80 亿参数模型)。

Mistral-7B-v0.3 (Mistral AI 的 70 亿参数模型)。

然后,他们让这些模型经历以下过程:

监督式微调 (SFT): 首先使用 LoRA (低秩适应) 对模型进行微调,以高效调整参数。

偏好优化: DPO 和 ORPO 作为基准——这些标准方法基于用户偏好信号来改进回应质量。 随后应用 DDPO 和 DORPO,引入基于偏差的权重以鼓励更独特的回应。

评估: 自动评估:使用基于嵌入的技术测量语义和风格多样性。 人工评估:评判员评估输出与 GPT-4 和 Claude 3.5 相比是否更具多样性和吸引力。

关键训练发现:

DDPO 在输出多样性方面显著优于标准 DPO,同时保持质量。

使用 DDPO 的 Llama-3.1-8B 在质量和多样性方面达到最佳平衡,产生的回应比 GPT-4 更加多样化,同时保持连贯性。

当数据集规模减小时,DDPO 模型仍然保持多样性,尽管它们需要一定数量的多样化训练样本才能完全发挥效果。

企业启示:对于使用 AI 进行创意回应的领域意味着什么——如市场营销文案、企业故事叙述和影视/游戏剧本创作?

对于管理大语言模型部署的 AI 团队来说,在保持质量的同时提高输出多样性是一个关键挑战。这些发现对依赖 AI 生成内容的组织有重要影响,适用于以下应用:

对话式 AI 和聊天机器人 (确保回应多样化和引人入胜)。

内容营销和故事叙述工具 (防止 AI 生成的文案重复)。

游戏开发和叙事设计 (创建多样化的对话和分支故事情节)。

对于负责在企业环境中微调和部署模型的专业人员,这项研究提供:

一种提升创造力而不牺牲质量的新型大语言模型后训练方法。

推理时多样性调优(如温度调节)的实用替代方案,通过将多样性整合到学习过程中。

开发更具吸引力的 AI 应用的潜力,从 AI 辅助写作工具到能够动态调整回应的虚拟助手。

对于处理 AI 模型编排和自动化的人员,这项研究强调:

在训练阶段调优模型的重要性,减少部署时的后处理调整需求。

将自适应故事叙述引入 AI 驱动的应用的方法,确保变化性的同时保持内容质量。

使大语言模型输出更接近人类的方法,这对需要交互式故事叙述、客户互动或动态内容创作的应用至关重要。

AI 生成创意项目的未来一片光明

DDPO 和 DORPO 的成功表明,使用以多样性为目标的训练可以显著改进大语言模型的创意写作。一些想法包括:

将基于偏差的学习整合到企业 AI 模型中,以增强面向客户的应用中的回应多样性。

探索这些方法如何应用于其他生成任务,如 AI 驱动的诗歌、剧本创作或游戏故事叙述。

开发混合训练方法,平衡 AI 助手的多样性和指令遵循能力。

对于有兴趣应用这些技术的人来说,研究人员计划在 GitHub 仓库中公开他们的代码。

无论是为商业应用微调大语言模型还是优化大规模 AI 编排,这项研究都为模型如何变得更加动态、引人入胜和响应创意任务提供了可行的见解。

通过采用这些技术,AI 团队可以超越僵化、程式化的输出——构建不仅智能而且真正富有想象力的 AI 系统。

来源:VentureBeat

0赞

好文章,需要你的鼓励

2025

03/26

09:55

分享

点赞

邮件订阅