DeepSeek 开源 V4 大语言模型系列，双模型齐发

中国AI开发商DeepSeek正式发布V4大语言模型系列，包含旗舰版V4-Pro和轻量版V4-Flash两款模型。两款模型均采用混合专家（MoE）架构，V4-Pro拥有1.6万亿参数，V4-Flash拥有2840亿参数。V4系列引入混合注意力机制，将KV缓存内存占用较上一代降低90%。此外，V4还新增mHC特性支持层间数据直连传输，并使用Muon模块优化隐藏层训练。基准测试显示，V4-Pro在多项测试中超越Claude Opus 4.6等前沿模型。目前两款模型已在Hugging Face上线预览。

中国人工智能开发商 DeepSeek 近日发布了全新的开源大语言模型系列。

此次发布的 V4 系列包含两款大语言模型：旗舰版 V4-Pro 以及轻量版 V4-Flash。V4-Flash 在一定程度上牺牲了输出质量，以换取更低的硬件资源占用。

两款模型均采用混合专家（MoE）架构，即由多个神经网络协同工作，而非单一的人工神经元网络。V4-Pro 拥有 1.6 万亿参数，在响应用户提示时激活约 490 亿参数的子网络；V4-Flash 则拥有 2840 亿参数，每次推理时激活约 130 亿参数。

V4 系列的一项重要架构创新是"混合注意力机制"。大语言模型的注意力机制负责根据重要性对用户输入的数据点进行排序，在生成回复时优先关注最相关的信息，过滤无关细节，从而提升输出质量。

注意力机制并非直接处理原始提示词，而是使用一种名为 KV 缓存的数学表达形式。V4 的混合注意力架构采用两种不同的压缩方法来缩减 KV 缓存的体积，进而降低内存占用。与 DeepSeek 上一代大语言模型相比，V4 系列在推理阶段的 KV 缓存内存占用减少了 90%。

V4 系列还引入了多项针对训练流程的优化特性。

神经网络由若干被称为"层"的人工神经元集合构成，数据依次流经各层进行处理：先进入第一层完成一系列运算，结果传递至第二层，再经第二层运算后传至第三层，以此类推。

在训练过程中，数据会在各层之间频繁传递。V4 引入了一项名为 mHC 的特性，允许数据在不经过中间神经元层的情况下，直接在相距较远的层之间传输。这种方式有效减少了训练误差，进而提升了 AI 的输出质量。

大语言模型首尾两层之间的神经元集合称为隐藏层。据 DeepSeek 介绍，V4 采用一个名为 Muon 的软件模块对隐藏层进行优化，有助于加快训练速度并降低相关的基础设施需求。

V4 的初始训练使用了约 27 万亿 Token 的数据集，随后经历了两阶段的后训练流程：第一阶段分别对各子神经网络进行独立优化，第二阶段则专注于提升各子网络之间的协同配合能力。

在评测方面，DeepSeek 使用约 24 项基准测试对 V4 系列中能力最强的 V4-Pro 进行了评估，并将其与包括 Claude Opus 4.6 在内的多个前沿模型进行了横向对比。V4-Pro 在其中 3 项基准测试中超越了所有参与比较的大语言模型，在其余多项测试中也优于部分竞争模型。

目前，V4-Pro 与 V4-Flash 均已在 Hugging Face 平台上提供预览版本。

Q&A

Q1：DeepSeek V4 系列包含哪些模型，有什么区别？

A：DeepSeek V4 系列目前包含两款大语言模型：旗舰版 V4-Pro 和轻量版 V4-Flash。V4-Pro 拥有 1.6 万亿参数，推理时激活约 490 亿参数，性能更强；V4-Flash 拥有 2840 亿参数，推理时激活约 130 亿参数，适合对硬件资源要求较低的场景，但输出质量相对有所取舍。两款模型均采用混合专家（MoE）架构。

Q2：DeepSeek V4 的混合注意力机制有什么作用？

A：混合注意力机制是 V4 系列的核心架构创新之一。它通过两种不同的压缩方法缩减 KV 缓存的体积，大幅降低推理阶段的内存占用。与 DeepSeek 上一代大语言模型相比，V4 的 KV 缓存内存使用量减少了 90%，在保持输出质量的同时显著降低了硬件门槛。

Q3：DeepSeek V4-Pro 的性能表现如何，和其他模型比怎么样？

A：DeepSeek 使用约 24 项基准测试对 V4-Pro 进行了评估，并与 Claude Opus 4.6 等多个前沿大语言模型进行了对比。结果显示，V4-Pro 在其中 3 项基准测试中全面超越所有参与比较的模型，在其余多项测试中也优于部分竞争对手，整体表现具备一定竞争力。

来源：SiliconANGLE

0赞

好文章，需要你的鼓励

DeepSeek 开源 V4 大语言模型系列，双模型齐发

来源：SiliconANGLE

2026

04/27

09:46

分享

点赞

WAIC2026 现场直击：开普勒顶流人气王，麒麟系列火爆出圈

面壁智能将密度定律带入具身智能

龙磁科技拟投3.58亿元扩建越南永磁铁氧体基地

首创一层Scale-up网络256卡全互联，摩尔线程MTT C256超节点为万卡及十万卡级集群夯实底座

从高血压诊疗入手，北京安贞医院让医疗大模型走出聊天框

西门子肖松：以场景为牵引，推动工业AI从单点实效迈向生产力跃迁

打造Token极致性价比 新华三震撼亮相2026世界人工智能大会

机器人管家系统上线！傅利叶携多款康养陪伴新品方案亮相WAIC 2026

赛那德“ 自主作业机器人天团” 登陆 WAIC：iLoabot-X+模型双升级，秀出具身场景落地硬实力

西门子Eigen工程智能体中国首发首展，荣获2026 WAIC SAIL之星奖

NVIDIA Cosmos 推动物理 AI 前沿发展

PPIO亮相WAIC 2026：发布智能模型网关，打造面向Agent时代的智能Token工厂

AI大模型竞赛升温：OpenAI、DeepSeek与Anthropic接连推出新品

ComfyUI估值达5亿美元，创作者争夺AI生成内容控制权

Meta的人才流失成为Thinking Machines Lab的收获

DeepSeek V4发布：效率大幅提升，支持华为昇腾NPU

谷歌将向Anthropic投资最高400亿美元

两名大学生完成510万美元天使轮融资，在iMessage上打造AI社交网络

Cohere收购德国初创公司，打造"跨大西洋AI强企"

Gartner预测：全球IT支出今年将增长13.5%

Meta与AWS达成协议，部署数千万个Graviton核心加速智能体AI布局

AWS与Meta达成数十亿美元AI基础设施合作协议

如果您非常迫切的想了解IT领域最新产品与技术信息，那么订阅至顶网技术邮件将是您的最佳途径之一

三一集团：数字化是必选项，AI是生存项

因湃电池 × 达索系统：如何共创出一套电池产业最佳实践

AI走进真实世界之后：安全、健康与产业的新命题

CES 2026

关注官方公众号

关注官方微博

关注官方喜马拉雅

友情链接

业界热点:

打造Token极致性价比新华三震撼亮相2026世界人工智能大会