DeepSeek发布V3.1版本，为国产新一代芯片做好准备

中国AI公司DeepSeek发布旗舰语言模型V3.1更新版，该模型已针对新一代国产芯片进行优化。新模型采用UE8M0数据类型训练，为即将发布的国产芯片做准备。V3.1统一了"思考"和"非思考"模式，单一模型支持两种范式，上下文窗口从65536扩展至131072个token，在工具调用能力上显著提升，Browsecomp基准测试得分从8.9提升至30。

中国AI明星企业DeepSeek发布了其旗舰大语言模型的更新版本，该公司声称这一新版本已针对即将推出的新一代国产芯片进行了优化。

据DeepSeek介绍，该公司使用UE8M0数据类型训练了新的V3.1模型，这是对英伟达等公司已支持的FP8格式的扩展。在微信评论中，该组织澄清这一改变是为了迎接新一代芯片。"UE8M0 FP8是为即将发布的下一代国产芯片而设计的"，该公司写道。

较低精度的数据类型提供了多项优势，包括减少内存消耗，提高推理和训练的吞吐量。然而值得注意的是，DeepSeek此前已在使用FP8，具体是E4M3类型。因此，切换到UE8M0似乎更多是为了兼容性而非效率提升。

DeepSeek并未透露其新模型所适配芯片的来源，但据报道，这家AI初创公司一直在与华为密切合作，使用其昇腾系列神经处理单元(NPU)进行训练和推理。

华为的昇腾910C为其CloudMatrix机架系统提供动力，但原生不支持FP8，这表明这家IT巨头可能正在开发更强大的加速器。

上周有报道称，DeepSeek曾尝试在华为昇腾加速器上训练其下一代R2模型，但遇到困难后改用英伟达H20加速器。据悉DeepSeek目前正在评估华为加速器的推理性能。

目前尚不清楚所谓的R2是否指本周发布的V3.1模型或即将推出的模型。

实际上并非全新模型

DeepSeek V3.1实际上并非全新模型，而是从早期V3检查点训练而来。

尽管如此，这个大语言模型确实承诺了显著改进。在V3.1中，DeepSeek不再区分"思考型"和"非思考型"模型。V3.1在单一模型中支持两种范式，并使用一对聊天模板在两者间切换。因此，该公司的聊天机器人界面现在不再提及R1。

统一模型同时支持推理和非推理输出的想法并非新颖。阿里巴巴今年早些时候尝试过类似做法，但发现该功能降低了其Qwen 3模型的质量后放弃了这一想法。

至少在基准测试中，DeepSeek的V3.1似乎避免了这个问题。与V3相比，该版本的非思考模型在各项指标上都取得了显著提升。

启用思考功能后，模型的提升较为温和。然而这并未完全说明全貌，DeepSeek指出该模型现在需要更少的思考Token就能得出答案，这应该有助于降低模型服务成本。

说到Token，DeepSeek已将其上下文窗口（可理解为短期记忆）的Token数量从65,536提升至131,072。虽然这是显著改进，但仍落后于Qwen3等其他中国模型，后者可处理百万级Token上下文。

DeepSeek还声称在工具和函数调用能力方面取得重大进展，这对于需要实时检索外部工具和数据的智能体AI工作负载至关重要。

例如，在针对自主浏览器使用任务的Browsecomp基准测试中，DeepSeek v3.1取得了30分的成绩，而R1的5月版本仅为8.9分。

除了通过聊天机器人服务和API端点提供访问外，DeepSeek还在Hugging Face和ModeScope上提供了基础模型和指令调优模型的权重下载。

Q&A

Q1：DeepSeek V3.1有什么新特点？

A：DeepSeek V3.1最大特点是使用UE8M0数据类型进行优化，专门为即将发布的国产芯片设计。同时它统一了"思考型"和"非思考型"模型功能，可在单一模型中通过聊天模板切换两种模式，并将上下文窗口从65,536个Token提升至131,072个。

Q2：为什么DeepSeek要切换到UE8M0数据类型？

A：DeepSeek切换到UE8M0主要是为了兼容即将推出的新一代国产芯片。虽然公司此前已使用FP8的E4M3类型，但UE8M0是专门为下一代国产芯片设计的，这表明可能有更强大的国产加速器即将问世。

Q3：DeepSeek V3.1性能如何？

A：在基准测试中，V3.1的非思考模式相比V3在各项指标上都有显著提升。在工具调用方面进步明显，如在Browsecomp浏览器任务测试中得分30分，远超此前R1版本的8.9分。同时模型需要更少思考Token就能得出答案，有助降低服务成本。

来源：The Register

0赞

好文章，需要你的鼓励

DeepSeek发布V3.1版本，为国产新一代芯片做好准备

来源：The Register

2025

08/22

10:50

分享

点赞

AWS推出主权AI本地部署方案及新一代AI加速器

HPE 2025年存储业务：Alletra产品线全面崛起

AWS与谷歌云合作推出多云快速连接服务

AV Linux 25和MX Moksha 25发布：两款音频制作专用Linux发行版

Windows智能体操作系统引争议：AI不应深入OS核心

Gartner发布2026-2029年企业存储战略路线图

MongoDB强调AI优势并质疑PostgreSQL扩展性

Mistral发布新一代开放权重模型挑战科技巨头

DeepSeek回应消失传闻，发布DeepSeek V3.2模型

NVIDIA 与新思科技宣布建立战略合作伙伴关系，携手重塑工程与设计未来

对话高途创始人陈向东：AI浪潮里，如何重写“教”和“育”？

Z世代与AI重塑商业世界：数字原住民如何驾驭人工智能浪潮

微软继续推进控制面板退役计划

Google搜索AI模式全球推广并提升智能化水平

微软Visual Studio正式发布MCP功能，但存在安全风险

AI时代数据架构：BigQuery统一平台的探索

戴尔投资5000万美元建设新加坡AI创新中心

百度无人出租车已实现盈亏平衡，海外扩张前景可观

TikTok母公司字节跳动发布开源Seed-OSS-36B模型，支持512K Token上下文

生成式引擎优化GEO：在线零售商的新营销手册

Google发布Pixel 10系列及新AI智能助手功能

Google推出Gemini for Home智能家居新战略

如果您非常迫切的想了解IT领域最新产品与技术信息，那么订阅至顶网技术邮件将是您的最佳途径之一

电子竞技瞬息万变，Team Liquid的“数据+AI”制胜秘籍

中国移动呼和浩特数据中心：只有高效存力先行，AI才能跑出全力

从“支撑工具”到“智能中枢”，AI原生ERP进化

阿里要用AI将云计算重做一遍

关注官方公众号

关注官方微博

关注官方喜马拉雅

友情链接

业界热点: