Midjourney 的惊喜：让大语言模型写作更具创造力的新研究

Midjourney 与纽约大学合作，发布了一项提升大语言模型创造性写作能力的研究。他们提出了两种新技术：多样化直接偏好优化（DDPO）和多样化比值偏好优化（DORPO），旨在扩大模型输出的多样性，同时保持连贯性和可读性。这项研究不仅展示了 Midjourney 在文本领域的野心，也为企业 AI 团队、产品开发者和内容创作者提供了改进 AI 生成文本的新方法。

Midjourney 以其领先的 AI 图像生成器而闻名——根据第三方统计，其 Discord 频道拥有近 2000 万用户，加上网站用户数量可能更多——但其野心正在开始扩张。

继 2024 年夏末宣布正在开发自己的计算和 AI 硬件后，本周该公司与纽约大学 (NYU) 的机器学习专家合作发布了一篇新的研究论文，探讨如何训练基于文本的大语言模型（如 Meta 的开源 Llama 和 Mistral 的同名源模型）以实现更具创造性的写作。

这项合作发表在 AI 代码社区 Hugging Face 上的研究论文中，介绍了两种新技术——多样化直接偏好优化 (DDPO) 和多样化比值偏好优化 (DORPO)，旨在扩大可能输出的范围，同时保持连贯性和可读性。

对于一家以扩散 AI 图像生成模型而闻名的公司来说，Midjourney 在文本类大语言模型创造力方面的新思路表明，它并不局限于视觉领域，而且一张图片可能并不真的胜过千言万语。

这家小型自主创业公司会推出 Midjourney 原生大语言模型或现有大语言模型的微调版本吗？我联系了 Midjourney 创始人 David Holz，但尚未收到回复。

无论是否会推出 Midjourney 自己的大语言模型，其新研究的影响已超越学术范畴，可能会推动企业 AI 团队、产品开发人员和内容创作者在改进 AI 生成文本方面掀起新一轮的大语言模型训练浪潮。

这也表明，尽管 AI 模型提供商最近对新的多模态和推理语言模型表现出浓厚兴趣并加大投资，但在经典的基于 Transformer 的文本大语言模型方面，在认知和性能上仍有很大的提升空间。

问题：AI 生成的写作趋向于同质化输出

在事实型问答或编程辅助等领域，人们期望大语言模型生成单一的最佳回答。

然而，创意写作本质上是开放式的，这意味着对单个提示可以有多种有效的回应。

以 Midjourney 研究人员提供的例子来说，给出"写一个关于月球上的狗的故事"这样的提示，大语言模型可以探索多个不同的路径，比如：

一只在月球任务后被意外遗留的宇航员宠物狗。

一只发现自己身处未来犬类太空殖民地的狗。

一只与外星物种成为朋友的滞留狗。

尽管存在这些可能性，但经过指令调优的大语言模型往往会收敛到相似的故事情节和主题。这种现象发生是因为：

后训练技术优先考虑用户偏好而非原创性，强化了流行但重复的回应。

指令调优往往会平滑变化，使模型倾向于"安全"的回应而非独特的回应。

现有的促进多样性的技术（如温度调节）仅在推理时起作用，而不是融入模型的学习过程中。

这导致故事创作同质化，AI 生成的创意写作显得重复，缺乏惊喜或深度。

解决方案：修改后训练方法以优先考虑多样性

为克服这些限制，研究人员引入了 DDPO 和 DORPO，这是现有偏好优化方法的两个扩展。这些方法的核心创新在于使用偏差——衡量一个回应与其他回应的差异程度——来指导训练。

工作原理如下：

在训练过程中，模型会收到一个写作提示和多个可能的回应。

对同一提示的每个回应都会与其他回应进行比较，并计算偏差分数。

罕见但高质量的回应在训练中被赋予更大的权重，鼓励模型从多样化的例子中学习。

通过将偏差纳入直接偏好优化 (DPO) 和比值偏好优化 (ORPO)，模型学会产生高质量但更加多样化的回应。

这种方法确保 AI 生成的故事不会收敛到单一可预测的结构，而是探索更广泛的角色、场景和主题——就像人类作家可能做的那样。

Midjourney 的研究人员如何实现这一目标

该研究涉及使用来自 Reddit 社区 r/writingPrompts（用户发布提示并以短故事回应的社区）的数据集训练大语言模型进行创意写作任务。

研究人员使用了两个基础模型进行训练：

Meta 的 Llama-3.1-8B (Llama 3 系列的 80 亿参数模型)。

Mistral-7B-v0.3 (Mistral AI 的 70 亿参数模型)。

然后，他们让这些模型经历以下过程：

监督式微调 (SFT)：首先使用 LoRA (低秩适应) 对模型进行微调，以高效调整参数。

偏好优化： DPO 和 ORPO 作为基准——这些标准方法基于用户偏好信号来改进回应质量。随后应用 DDPO 和 DORPO，引入基于偏差的权重以鼓励更独特的回应。

评估：自动评估：使用基于嵌入的技术测量语义和风格多样性。人工评估：评判员评估输出与 GPT-4 和 Claude 3.5 相比是否更具多样性和吸引力。

关键训练发现：

DDPO 在输出多样性方面显著优于标准 DPO，同时保持质量。

使用 DDPO 的 Llama-3.1-8B 在质量和多样性方面达到最佳平衡，产生的回应比 GPT-4 更加多样化，同时保持连贯性。

当数据集规模减小时，DDPO 模型仍然保持多样性，尽管它们需要一定数量的多样化训练样本才能完全发挥效果。

企业启示：对于使用 AI 进行创意回应的领域意味着什么——如市场营销文案、企业故事叙述和影视/游戏剧本创作？

对于管理大语言模型部署的 AI 团队来说，在保持质量的同时提高输出多样性是一个关键挑战。这些发现对依赖 AI 生成内容的组织有重要影响，适用于以下应用：

对话式 AI 和聊天机器人 (确保回应多样化和引人入胜)。

内容营销和故事叙述工具 (防止 AI 生成的文案重复)。

游戏开发和叙事设计 (创建多样化的对话和分支故事情节)。

对于负责在企业环境中微调和部署模型的专业人员，这项研究提供：

一种提升创造力而不牺牲质量的新型大语言模型后训练方法。

推理时多样性调优（如温度调节）的实用替代方案，通过将多样性整合到学习过程中。

开发更具吸引力的 AI 应用的潜力，从 AI 辅助写作工具到能够动态调整回应的虚拟助手。

对于处理 AI 模型编排和自动化的人员，这项研究强调：

在训练阶段调优模型的重要性，减少部署时的后处理调整需求。

将自适应故事叙述引入 AI 驱动的应用的方法，确保变化性的同时保持内容质量。

使大语言模型输出更接近人类的方法，这对需要交互式故事叙述、客户互动或动态内容创作的应用至关重要。

AI 生成创意项目的未来一片光明

DDPO 和 DORPO 的成功表明，使用以多样性为目标的训练可以显著改进大语言模型的创意写作。一些想法包括：

将基于偏差的学习整合到企业 AI 模型中，以增强面向客户的应用中的回应多样性。

探索这些方法如何应用于其他生成任务，如 AI 驱动的诗歌、剧本创作或游戏故事叙述。

开发混合训练方法，平衡 AI 助手的多样性和指令遵循能力。

对于有兴趣应用这些技术的人来说，研究人员计划在 GitHub 仓库中公开他们的代码。

无论是为商业应用微调大语言模型还是优化大规模 AI 编排，这项研究都为模型如何变得更加动态、引人入胜和响应创意任务提供了可行的见解。

通过采用这些技术，AI 团队可以超越僵化、程式化的输出——构建不仅智能而且真正富有想象力的 AI 系统。

来源：VentureBeat

0赞

好文章，需要你的鼓励

Midjourney 的惊喜：让大语言模型写作更具创造力的新研究

来源：VentureBeat

2025

03/26

09:55

分享

点赞

Unity团结引擎发布三大战略 极速提升渲染效能

Unity开发者大会Unite2025点亮上海，团结引擎加速本土创新落地

阿里夸克“C计划”再曝新动向：一款AI浏览器或年底发布

英特尔复苏进行中，代工业务成为关注焦点

微软为Copilot推出Mico虚拟角色及新增自动化协作功能

Google与Anthropic签署百亿TPU合作协议推进AI发展

EA与Stable Diffusion背后公司合作，用AI制作游戏

英特尔称服务器CPU将重新火热：AI工作负载推动增长

提示工程正在深入探索最新发布的ChatGPT工作效率提升提示包

NRG能源如何通过技术创新重塑传统电力行业

CIO将承担业务主导AI项目失败的收拾责任

企业高管担忧公有云数据主权问题

Red Hat 简化 AI 应用训练和推理的数据访问流程

Groq 和 PlayAI 让 AI 语音更接近人类 — 这是他们的方法

OpenAI 爆火的吉卜力风格引发 AI 版权担忧

ETSI 发布首个后量子加密标准

ChatGPT 整合 GPT-4o 推出图像生成功能

让数据为 AI 做好准备的三个步骤

Imandra 新推出的 AI 编程助手 CodeLogician 利用"推理能力"确保代码准确性

微软为研究和数据分析推出"深度推理"版 Copilot AI

Amazon 推出 AI 智能购物助手，洞悉你的喜好

前英特尔 CEO Gelsinger 转投宗教科技公司 Gloo 任要职

如果您非常迫切的想了解IT领域最新产品与技术信息，那么订阅至顶网技术邮件将是您的最佳途径之一

阿里要用AI将云计算重做一遍

PEC 2025 AI创新者大会

用AI，在数字身份验证风暴中心重构信任坐标

关于AI Agent落地，李开复强调了两件事：“价值交付”和“一把手工程”

关注官方公众号

关注官方微博

关注官方喜马拉雅

友情链接

业界热点:

Unity团结引擎发布三大战略极速提升渲染效能