苹果全新语言模型实现超快速长文本生成

苹果与俄亥俄州立大学研究人员发布名为FS-DFM的新模型，采用少步离散流匹配技术，仅需8轮快速优化即可生成完整长文本，效果媲美需要上千步骤的扩散模型。该模型通过三步训练法：处理不同优化预算、使用教师模型指导、调整迭代机制来实现突破。测试显示，参数量仅1.7亿至17亿的FS-DFM变体在困惑度和熵值指标上均优于70-80亿参数的大型扩散模型。

苹果发布新型流匹配模型实现文本快速生成

要理解这项研究，首先需要了解几种不同的模型类型。ChatGPT等大语言模型属于自回归模型，它们按顺序生成文本，一次生成一个Token，同时考虑用户提示和之前生成的所有Token。

与自回归模型不同，扩散模型可以并行生成多个Token，并通过多次迭代步骤进行优化，直到形成完整的响应。

流匹配模型是扩散模型的一种变体，它基本上跳过了扩散模型的迭代过程，学会一次性生成最终结果。

苹果和俄亥俄州立大学的研究人员在今天发表的一项研究中，提出了一种名为"少步离散流匹配"（Few-Step Discrete Flow-Matching，简称FS-DFM）的新模型。

研究显示，FS-DFM能够仅通过8轮快速优化就写出完整的文章段落，达到了需要超过一千步才能实现类似效果的扩散模型的质量水平。

为了实现这一目标，研究人员采用了一种有趣的三步方法：首先，训练模型处理不同的优化迭代预算；然后，使用指导"教师"模型帮助它在每次迭代中进行更大、更准确的更新，而不会"过度修正"预期文本；最后，调整每次迭代的工作方式，使模型能够以更少、更稳定的步骤达到最终结果。

与更大的扩散模型相比，FS-DFM在两个重要指标上表现出色：困惑度和熵值。

困惑度分数是语言模型文本质量的标准指标。困惑度越低，文本听起来越准确和自然。

至于熵值，它本质上衡量模型选择每个词的置信度。在实践中，如果熵值太低，文本可能变得重复或可预测；但如果太高，文本可能开始听起来随机或不连贯。

与拥有70亿参数的Dream扩散模型和拥有80亿参数的LLaDA扩散模型相比，参数分别为17亿、13亿和1.7亿的FS-DFM变体在所有迭代次数下都持续实现了更低的困惑度并保持了更稳定的熵值。

鉴于这些结果和该方法显示的前景，以及缺乏类似的模型和研究，研究人员还表示他们"计划发布代码和模型检查点，以促进可重现性和进一步研究"。

如果您想深入了解苹果的方法和模型的更多具体实现细节，请务必查看arXiv上的完整论文。该论文包含多个性能示例，例如用颜色编码显示每个词最后更改的迭代轮次。

论文显示，许多Token被标记为黄色，表明它们在过程早期就被预测出来。这是由于累积标量的作用。

Q&A

Q1：FS-DFM模型与传统大语言模型有什么区别？

A：FS-DFM是一种流匹配模型，与ChatGPT等自回归模型不同。自回归模型按顺序生成文本，一次生成一个Token，而FS-DFM可以并行生成多个Token，并通过少量迭代步骤进行优化，仅需8轮快速优化就能写出完整文章。

Q2：FS-DFM在性能上有什么优势？

A：与拥有70亿和80亿参数的大型扩散模型相比，参数更少的FS-DFM变体（17亿、13亿和1.7亿参数）在困惑度和熵值两个重要指标上都表现更好，实现了更低的困惑度和更稳定的熵值，生成的文本更准确自然。

Q3：困惑度和熵值在语言模型中代表什么意思？

A：困惑度是衡量语言模型文本质量的标准指标，困惑度越低，文本越准确自然。熵值衡量模型选择每个词的置信度，熵值太低文本会重复可预测，太高则会显得随机不连贯，需要保持适当平衡。

来源：9to5mac

0赞

好文章，需要你的鼓励

苹果全新语言模型实现超快速长文本生成

来源：9to5mac

2025

10/14

10:19

分享

点赞

人工智能是否存在泡沫风险的深度分析

AI系统在压力下学会战略性欺骗的深层原因

数据中心备份电力系统对比分析

Paxos以超1亿美元收购加密钱包初创公司Fordefi

腾讯发布"读图神器"HunyuanOCR，只用1%的参数就打败了行业巨头？

联想天津工厂入选“世界智能制造十大科技进展” 以零碳智造打造业内标杆

联想万全异构智算研发团队入选IEEE CyberSciTech 2025，RNL技术成果获国际认可！

首款搭载千问的AI硬件：夸克AI眼镜新品发布 次日门店现排队潮

ServiceNow或以超10亿美元收购网络安全初创公司Veza

谷歌云推出"PanyaThAI"计划加速泰国AI应用

英国产学合作推进光纤射频通信技术商业化进程

阿里巴巴推出可换电池设计的Quark AI智能眼镜

Liquid AI发布超小型高性能基础模型，专为设备端处理设计

Gemini"香蕉"AI图像编辑体验：有趣但问题不少

本地大语言模型崛起：为何用户开始选择自主部署AI

OpenAI与微软发布全新语音生成模型

Gemini 2.5 Flash Image企业级图像编辑一致性与精准控制升级

Gemini 2.5 Flash Image发布，图像编辑精度大幅提升

使用Llama.cpp在家中私密运行大语言模型

Hugging Face：企业在不牺牲性能下降低AI成本的5种方法

Anthropic的Claude AI模型现可处理更长的提示内容

谷歌Gemini AI家族迎来重大更新：2.5 Pro稳定版发布

如果您非常迫切的想了解IT领域最新产品与技术信息，那么订阅至顶网技术邮件将是您的最佳途径之一

电子竞技瞬息万变，Team Liquid的“数据+AI”制胜秘籍

中国移动呼和浩特数据中心：只有高效存力先行，AI才能跑出全力

从“支撑工具”到“智能中枢”，AI原生ERP进化

阿里要用AI将云计算重做一遍

关注官方公众号

关注官方微博

关注官方喜马拉雅

友情链接

业界热点:

首款搭载千问的AI硬件：夸克AI眼镜新品发布次日门店现排队潮