中国AI明星企业DeepSeek发布了其旗舰大语言模型的更新版本,该公司声称这一新版本已针对即将推出的新一代国产芯片进行了优化。
据DeepSeek介绍,该公司使用UE8M0数据类型训练了新的V3.1模型,这是对英伟达等公司已支持的FP8格式的扩展。在微信评论中,该组织澄清这一改变是为了迎接新一代芯片。"UE8M0 FP8是为即将发布的下一代国产芯片而设计的",该公司写道。
较低精度的数据类型提供了多项优势,包括减少内存消耗,提高推理和训练的吞吐量。然而值得注意的是,DeepSeek此前已在使用FP8,具体是E4M3类型。因此,切换到UE8M0似乎更多是为了兼容性而非效率提升。
DeepSeek并未透露其新模型所适配芯片的来源,但据报道,这家AI初创公司一直在与华为密切合作,使用其昇腾系列神经处理单元(NPU)进行训练和推理。
华为的昇腾910C为其CloudMatrix机架系统提供动力,但原生不支持FP8,这表明这家IT巨头可能正在开发更强大的加速器。
上周有报道称,DeepSeek曾尝试在华为昇腾加速器上训练其下一代R2模型,但遇到困难后改用英伟达H20加速器。据悉DeepSeek目前正在评估华为加速器的推理性能。
目前尚不清楚所谓的R2是否指本周发布的V3.1模型或即将推出的模型。
实际上并非全新模型
DeepSeek V3.1实际上并非全新模型,而是从早期V3检查点训练而来。
尽管如此,这个大语言模型确实承诺了显著改进。在V3.1中,DeepSeek不再区分"思考型"和"非思考型"模型。V3.1在单一模型中支持两种范式,并使用一对聊天模板在两者间切换。因此,该公司的聊天机器人界面现在不再提及R1。
统一模型同时支持推理和非推理输出的想法并非新颖。阿里巴巴今年早些时候尝试过类似做法,但发现该功能降低了其Qwen 3模型的质量后放弃了这一想法。
至少在基准测试中,DeepSeek的V3.1似乎避免了这个问题。与V3相比,该版本的非思考模型在各项指标上都取得了显著提升。
启用思考功能后,模型的提升较为温和。然而这并未完全说明全貌,DeepSeek指出该模型现在需要更少的思考Token就能得出答案,这应该有助于降低模型服务成本。
说到Token,DeepSeek已将其上下文窗口(可理解为短期记忆)的Token数量从65,536提升至131,072。虽然这是显著改进,但仍落后于Qwen3等其他中国模型,后者可处理百万级Token上下文。
DeepSeek还声称在工具和函数调用能力方面取得重大进展,这对于需要实时检索外部工具和数据的智能体AI工作负载至关重要。
例如,在针对自主浏览器使用任务的Browsecomp基准测试中,DeepSeek v3.1取得了30分的成绩,而R1的5月版本仅为8.9分。
除了通过聊天机器人服务和API端点提供访问外,DeepSeek还在Hugging Face和ModeScope上提供了基础模型和指令调优模型的权重下载。
Q&A
Q1:DeepSeek V3.1有什么新特点?
A:DeepSeek V3.1最大特点是使用UE8M0数据类型进行优化,专门为即将发布的国产芯片设计。同时它统一了"思考型"和"非思考型"模型功能,可在单一模型中通过聊天模板切换两种模式,并将上下文窗口从65,536个Token提升至131,072个。
Q2:为什么DeepSeek要切换到UE8M0数据类型?
A:DeepSeek切换到UE8M0主要是为了兼容即将推出的新一代国产芯片。虽然公司此前已使用FP8的E4M3类型,但UE8M0是专门为下一代国产芯片设计的,这表明可能有更强大的国产加速器即将问世。
Q3:DeepSeek V3.1性能如何?
A:在基准测试中,V3.1的非思考模式相比V3在各项指标上都有显著提升。在工具调用方面进步明显,如在Browsecomp浏览器任务测试中得分30分,远超此前R1版本的8.9分。同时模型需要更少思考Token就能得出答案,有助降低服务成本。
好文章,需要你的鼓励
机器人AI软件开发商FieldAI宣布通过两轮融资筹集4.05亿美元,其中3.15亿美元由贝索斯探险基金、Prysm和淡马锡领投。该公司开发的软件平台可让机器人在建筑工地等复杂环境中导航,采用专有的场域基础模型技术。该软件无需地图、GPS或预定义路径即可运行,支持人形机器人、自动驾驶车辆等多种系统。目前已在数百个工业环境中部署,估值达20亿美元。
谷歌DeepMind开发的GenCast AI系统在天气预报领域实现重大突破,在97.2%的测试指标上超越传统数值预报系统。该系统基于扩散模型和四十年历史数据训练,能在8分钟内完成全球七天天气预报,比传统方法快数十倍。GenCast采用概率性预报方法,为决策者提供多种天气情景,在极端天气预测方面表现尤为出色,为农业、能源、交通等领域带来广阔应用前景。
Epic公司CEO朱迪·福克纳宣布推出"医疗智能"概念,在其电子病历系统中开发智能AI代理。该系统基于超过3亿患者记录的Cosmos数据集,包含四个核心AI代理:患者导航员Emmie、临床医生助手ART、诊疗决策支持Cosmos AI和管理优化器Penny。这些代理能够提供预测性健康监测、简化临床试验匹配、优化医疗流程。Epic与微软深度合作,利用Azure AI确保系统规模化和可靠性,旨在构建统一的智能医疗生态系统。
北京大学团队推出TransMLA技术,可将现有GQA架构语言模型直接转换为高效MLA架构,无需重新训练。该技术通过RoRoPE、FreqFold和BKV三项创新实现了最高10.6倍的推理速度提升,在93%内存压缩下仅需60亿词元微调即可恢复性能,为AI模型优化提供了经济实用的解决方案。