推理性能提升10倍！蚂蚁集团开源业内首个高性能扩散语言模型推理框架dInfer

在基准测试中，dInfer将扩散语言模型的推理速度相比于英伟达扩散模型框架Fast-dLLM提升了10.7倍。

10月13日，蚂蚁集团正式开源业界首个高性能扩散语言模型推理框架dInfer。

在基准测试中，dInfer将扩散语言模型的推理速度相比于英伟达扩散模型框架Fast-dLLM提升了10.7倍；在代码生成任务HumanEval上，dInfer在单批次推理中创造了1011Tokens/秒的速度，首次在开源社区中实现扩散语言模型的单批次推理速度显著超越自回归模型。dInfer的工作表明，扩散语言模型具备显著的效率潜力，可以通过系统性的创新工程兑现，为通往AGI的架构路径提供极具竞争力的选项。

扩散语言模型，作为一种全新的范式将文本生成视为一个“从随机噪声中逐步恢复完整序列”的去噪过程，具有高度并行、全局视野、结构灵活三大优势。凭借这些优势，以蚂蚁集团和人大发布的LLaDA-MoE为代表的模型已在多个基准测试中，展现出与顶尖AR模型相媲美的准确性。然而在推理效率方面，dLLM理论上的强大潜能，却长期被残酷的现实“枷锁”所束缚。dLLM的高效推理面临计算成本高、KV缓存失效、并行解码三大挑战。这些瓶颈使得扩散语言模型的推理速度一直不尽人意，如何打破枷锁释放扩散语言模型在推理效率上的潜能，成为整个领域亟待解决的难题。

dInfer是一款专为扩散语言模型设计的、算法与系统深度协同的高性能推理框架，可支持多种扩散语言模型，包括 LLaDA、 LLaDA-MoE、LLaDA-MoE-TD 等。

dInfer包含四大核心模块：模型接入（Model）、KV缓存管理器（KV-Cache Manager），扩散迭代管理器（Iteration Manager），和解码策略（Decoder）。这种可插拔的架构，允许开发者像搭乐高一样，进一步组合和探索不同模块的优化策略，并在统一的平台上进行标准化评测。更重要的是，dInfer针对上述三大挑战，在每个模块中都集成了针对性的解决方案。

推理性能提升10倍！蚂蚁集团开源业内首个高性能扩散语言模型推理框架dInfer

在配备8块NVIDIA H800 GPU的节点上，dInfer的性能表现令人瞩目：

在与先前的dLLM推理方案Fast-dLLM的对比中，dInfer在模型效果持平的情况下，平均推理速度（avg TPS）实现了10.7倍的巨大提升（681 vs 63.6）；在代码生成任务HumanEval上，dInfer在单批次推理中创造了1011 tokens/秒的速度；与在业界顶尖的推理服务框架vLLM上运行的、参数量和性能相当的AR模型Qwen2.5-3B相比，dInfer的平均推理速度是其2.5倍（681 vs 277）。

蚂蚁集团介绍，dInfer连接了前沿研究与产业落地，标志着扩散语言模型从“理论可行”迈向“实践高效”的关键一步。此次开预案，也是诚邀全球的开发者与研究者共同探索扩散语言模型的巨大潜能，构建更加高效、开放的AI新生态。

来源：至顶网人工智能频道

0赞

好文章，需要你的鼓励

推理性能提升10倍！蚂蚁集团开源业内首个高性能扩散语言模型推理框架dInfer

来源：至顶网人工智能频道

2025

10/13

16:38

分享

点赞

稚晖君发布全球最小全身力控人形机器人，上纬启元开启个人机器人时代

2026年软件定价大洗牌：IT领导者必须知道的关键变化

Linux 在 2026 年将势不可挡，但一个开源传奇可能难以为继

CES 2026趋势展望：全球最大科技展五大热门话题预测

人工智能时代为何编程技能比以往更重要

AI颠覆云优先战略：混合计算成为唯一出路

谷歌发布JAX-Privacy 1.0：大规模差分隐私机器学习工具库

谷歌量子AI发布新型优化算法DQI：量子计算优化领域的重大突破

缓解电动汽车里程焦虑：简单AI模型如何预测充电桩可用性

Titans + MIRAS：让AI拥有长期记忆能力

Gemini为STOC 2026大会理论计算机科学家提供自动化反馈

夸克AI眼镜持续升级：首次OTA，支持89种语言翻译

蚂蚁发布万亿参数旗舰模型Ling-1T，开启蚂蚁百灵大模型2.0版

SpotitEarly训练狗狗与AI协作嗅探癌症获2030万美元融资

数万亿美元的AI基础设施竞赛：科技巨头的投资狂潮

中兴通讯在米兰举办全球峰会，聚焦"连接+计算"战略

微软提醒：我们已经拥有AI数据中心，OpenAI还在建设中

AI心理治疗应用需要更多理性讨论

苹果已开始研发H3芯片和下一代AirPods产品

视觉不再可信：摆脱AI视频漩涡的四个步骤

AI正吞噬互联网，但人类内容有望逆风翻盘

AI正在改变工业安全：从警报疲劳走向智能答案

如果您非常迫切的想了解IT领域最新产品与技术信息，那么订阅至顶网技术邮件将是您的最佳途径之一

2025 re:Invent ：亚马逊云科技把Agentic AI生态梳理明白了

电子竞技瞬息万变，Team Liquid的“数据+AI”制胜秘籍

中国移动呼和浩特数据中心：只有高效存力先行，AI才能跑出全力

从“支撑工具”到“智能中枢”，AI原生ERP进化

关注官方公众号

关注官方微博

关注官方喜马拉雅

友情链接

业界热点: