中国人工智能开发商 DeepSeek 近日发布了全新的开源大语言模型系列。
此次发布的 V4 系列包含两款大语言模型:旗舰版 V4-Pro 以及轻量版 V4-Flash。V4-Flash 在一定程度上牺牲了输出质量,以换取更低的硬件资源占用。
两款模型均采用混合专家(MoE)架构,即由多个神经网络协同工作,而非单一的人工神经元网络。V4-Pro 拥有 1.6 万亿参数,在响应用户提示时激活约 490 亿参数的子网络;V4-Flash 则拥有 2840 亿参数,每次推理时激活约 130 亿参数。
V4 系列的一项重要架构创新是"混合注意力机制"。大语言模型的注意力机制负责根据重要性对用户输入的数据点进行排序,在生成回复时优先关注最相关的信息,过滤无关细节,从而提升输出质量。
注意力机制并非直接处理原始提示词,而是使用一种名为 KV 缓存的数学表达形式。V4 的混合注意力架构采用两种不同的压缩方法来缩减 KV 缓存的体积,进而降低内存占用。与 DeepSeek 上一代大语言模型相比,V4 系列在推理阶段的 KV 缓存内存占用减少了 90%。
V4 系列还引入了多项针对训练流程的优化特性。
神经网络由若干被称为"层"的人工神经元集合构成,数据依次流经各层进行处理:先进入第一层完成一系列运算,结果传递至第二层,再经第二层运算后传至第三层,以此类推。
在训练过程中,数据会在各层之间频繁传递。V4 引入了一项名为 mHC 的特性,允许数据在不经过中间神经元层的情况下,直接在相距较远的层之间传输。这种方式有效减少了训练误差,进而提升了 AI 的输出质量。
大语言模型首尾两层之间的神经元集合称为隐藏层。据 DeepSeek 介绍,V4 采用一个名为 Muon 的软件模块对隐藏层进行优化,有助于加快训练速度并降低相关的基础设施需求。
V4 的初始训练使用了约 27 万亿 Token 的数据集,随后经历了两阶段的后训练流程:第一阶段分别对各子神经网络进行独立优化,第二阶段则专注于提升各子网络之间的协同配合能力。
在评测方面,DeepSeek 使用约 24 项基准测试对 V4 系列中能力最强的 V4-Pro 进行了评估,并将其与包括 Claude Opus 4.6 在内的多个前沿模型进行了横向对比。V4-Pro 在其中 3 项基准测试中超越了所有参与比较的大语言模型,在其余多项测试中也优于部分竞争模型。
目前,V4-Pro 与 V4-Flash 均已在 Hugging Face 平台上提供预览版本。
Q&A
Q1:DeepSeek V4 系列包含哪些模型,有什么区别?
A:DeepSeek V4 系列目前包含两款大语言模型:旗舰版 V4-Pro 和轻量版 V4-Flash。V4-Pro 拥有 1.6 万亿参数,推理时激活约 490 亿参数,性能更强;V4-Flash 拥有 2840 亿参数,推理时激活约 130 亿参数,适合对硬件资源要求较低的场景,但输出质量相对有所取舍。两款模型均采用混合专家(MoE)架构。
Q2:DeepSeek V4 的混合注意力机制有什么作用?
A:混合注意力机制是 V4 系列的核心架构创新之一。它通过两种不同的压缩方法缩减 KV 缓存的体积,大幅降低推理阶段的内存占用。与 DeepSeek 上一代大语言模型相比,V4 的 KV 缓存内存使用量减少了 90%,在保持输出质量的同时显著降低了硬件门槛。
Q3:DeepSeek V4-Pro 的性能表现如何,和其他模型比怎么样?
A:DeepSeek 使用约 24 项基准测试对 V4-Pro 进行了评估,并与 Claude Opus 4.6 等多个前沿大语言模型进行了对比。结果显示,V4-Pro 在其中 3 项基准测试中全面超越所有参与比较的模型,在其余多项测试中也优于部分竞争对手,整体表现具备一定竞争力。
好文章,需要你的鼓励
火箭实验室(Rocket Lab)宣布计划以现金加股票方式,斥资80亿美元收购主要卫星运营商铱星通信(Iridium Communications),交易预计于2027年中完成。铱星目前运营着由66颗活跃低轨卫星组成的星座网络,拥有约255万活跃用户,2024年营收达8.717亿美元。收购完成后,Rocket Lab计划借助其新型重型运载火箭Neutron及Lightning卫星平台,扩大铱星星座规模,开拓未被覆盖的市场并降低发射成本。
谷歌研究院开发的论文助手工具PAT,利用分阶段深度推理流水线自动审查学术论文,在真实错误检测任务上达到89.7%召回率,并已在STOC和ICML两大顶会完成超4700篇论文的真实部署。
音乐流媒体平台Tidal宣布,将于7月中旬启用自动化工具,对完全由AI生成的音乐添加"AI"标识,并移除具有欺诈性质的曲目。平台还将取消AI生成音乐的版税资格,仅向真人创作、演唱的原创音乐开放变现渠道。此外,Tidal明确将高频异常上传、干扰真实艺术家等行为列为欺诈活动。Deezer、Spotify等竞争对手此前已推出类似检测机制,流媒体行业正加速构建AI内容治理体系。
香港大学与武汉大学联合开发的EO-WM系统,将地球观测卫星图像预测重新定义为天气驱动的世界建模问题,通过把气象信号拆解为气候基线、天气异常和累积压力三层,显著提升了对极端干旱和热浪事件下植被退化的预测准确性。