DeepSeek发布V3.1版本，为国产新一代芯片做好准备

中国AI公司DeepSeek发布旗舰语言模型V3.1更新版，该模型已针对新一代国产芯片进行优化。新模型采用UE8M0数据类型训练，为即将发布的国产芯片做准备。V3.1统一了"思考"和"非思考"模式，单一模型支持两种范式，上下文窗口从65536扩展至131072个token，在工具调用能力上显著提升，Browsecomp基准测试得分从8.9提升至30。

中国AI明星企业DeepSeek发布了其旗舰大语言模型的更新版本，该公司声称这一新版本已针对即将推出的新一代国产芯片进行了优化。

据DeepSeek介绍，该公司使用UE8M0数据类型训练了新的V3.1模型，这是对英伟达等公司已支持的FP8格式的扩展。在微信评论中，该组织澄清这一改变是为了迎接新一代芯片。"UE8M0 FP8是为即将发布的下一代国产芯片而设计的"，该公司写道。

较低精度的数据类型提供了多项优势，包括减少内存消耗，提高推理和训练的吞吐量。然而值得注意的是，DeepSeek此前已在使用FP8，具体是E4M3类型。因此，切换到UE8M0似乎更多是为了兼容性而非效率提升。

DeepSeek并未透露其新模型所适配芯片的来源，但据报道，这家AI初创公司一直在与华为密切合作，使用其昇腾系列神经处理单元(NPU)进行训练和推理。

华为的昇腾910C为其CloudMatrix机架系统提供动力，但原生不支持FP8，这表明这家IT巨头可能正在开发更强大的加速器。

上周有报道称，DeepSeek曾尝试在华为昇腾加速器上训练其下一代R2模型，但遇到困难后改用英伟达H20加速器。据悉DeepSeek目前正在评估华为加速器的推理性能。

目前尚不清楚所谓的R2是否指本周发布的V3.1模型或即将推出的模型。

实际上并非全新模型

DeepSeek V3.1实际上并非全新模型，而是从早期V3检查点训练而来。

尽管如此，这个大语言模型确实承诺了显著改进。在V3.1中，DeepSeek不再区分"思考型"和"非思考型"模型。V3.1在单一模型中支持两种范式，并使用一对聊天模板在两者间切换。因此，该公司的聊天机器人界面现在不再提及R1。

统一模型同时支持推理和非推理输出的想法并非新颖。阿里巴巴今年早些时候尝试过类似做法，但发现该功能降低了其Qwen 3模型的质量后放弃了这一想法。

至少在基准测试中，DeepSeek的V3.1似乎避免了这个问题。与V3相比，该版本的非思考模型在各项指标上都取得了显著提升。

启用思考功能后，模型的提升较为温和。然而这并未完全说明全貌，DeepSeek指出该模型现在需要更少的思考Token就能得出答案，这应该有助于降低模型服务成本。

说到Token，DeepSeek已将其上下文窗口（可理解为短期记忆）的Token数量从65,536提升至131,072。虽然这是显著改进，但仍落后于Qwen3等其他中国模型，后者可处理百万级Token上下文。

DeepSeek还声称在工具和函数调用能力方面取得重大进展，这对于需要实时检索外部工具和数据的智能体AI工作负载至关重要。

例如，在针对自主浏览器使用任务的Browsecomp基准测试中，DeepSeek v3.1取得了30分的成绩，而R1的5月版本仅为8.9分。

除了通过聊天机器人服务和API端点提供访问外，DeepSeek还在Hugging Face和ModeScope上提供了基础模型和指令调优模型的权重下载。

Q&A

Q1：DeepSeek V3.1有什么新特点？

A：DeepSeek V3.1最大特点是使用UE8M0数据类型进行优化，专门为即将发布的国产芯片设计。同时它统一了"思考型"和"非思考型"模型功能，可在单一模型中通过聊天模板切换两种模式，并将上下文窗口从65,536个Token提升至131,072个。

Q2：为什么DeepSeek要切换到UE8M0数据类型？

A：DeepSeek切换到UE8M0主要是为了兼容即将推出的新一代国产芯片。虽然公司此前已使用FP8的E4M3类型，但UE8M0是专门为下一代国产芯片设计的，这表明可能有更强大的国产加速器即将问世。

Q3：DeepSeek V3.1性能如何？

A：在基准测试中，V3.1的非思考模式相比V3在各项指标上都有显著提升。在工具调用方面进步明显，如在Browsecomp浏览器任务测试中得分30分，远超此前R1版本的8.9分。同时模型需要更少思考Token就能得出答案，有助降低服务成本。

来源：The Register

0赞

好文章，需要你的鼓励

DeepSeek发布V3.1版本，为国产新一代芯片做好准备

来源：The Register

2025

08/22

10:50

分享

点赞

WAIC2026 现场直击：开普勒顶流人气王，麒麟系列火爆出圈

面壁智能将密度定律带入具身智能

龙磁科技拟投3.58亿元扩建越南永磁铁氧体基地

首创一层Scale-up网络256卡全互联，摩尔线程MTT C256超节点为万卡及十万卡级集群夯实底座

从高血压诊疗入手，北京安贞医院让医疗大模型走出聊天框

西门子肖松：以场景为牵引，推动工业AI从单点实效迈向生产力跃迁

打造Token极致性价比 新华三震撼亮相2026世界人工智能大会

机器人管家系统上线！傅利叶携多款康养陪伴新品方案亮相WAIC 2026

赛那德“ 自主作业机器人天团” 登陆 WAIC：iLoabot-X+模型双升级，秀出具身场景落地硬实力

西门子Eigen工程智能体中国首发首展，荣获2026 WAIC SAIL之星奖

NVIDIA Cosmos 推动物理 AI 前沿发展

PPIO亮相WAIC 2026：发布智能模型网关，打造面向Agent时代的智能Token工厂

微软继续推进控制面板退役计划

Google搜索AI模式全球推广并提升智能化水平

微软Visual Studio正式发布MCP功能，但存在安全风险

AI时代数据架构：BigQuery统一平台的探索

戴尔投资5000万美元建设新加坡AI创新中心

百度无人出租车已实现盈亏平衡，海外扩张前景可观

TikTok母公司字节跳动发布开源Seed-OSS-36B模型，支持512K Token上下文

生成式引擎优化GEO：在线零售商的新营销手册

Google发布Pixel 10系列及新AI智能助手功能

Google推出Gemini for Home智能家居新战略

如果您非常迫切的想了解IT领域最新产品与技术信息，那么订阅至顶网技术邮件将是您的最佳途径之一

三一集团：数字化是必选项，AI是生存项

因湃电池 × 达索系统：如何共创出一套电池产业最佳实践

AI走进真实世界之后：安全、健康与产业的新命题

CES 2026

关注官方公众号

关注官方微博

关注官方喜马拉雅

友情链接

业界热点:

打造Token极致性价比新华三震撼亮相2026世界人工智能大会