中国AI明星企业DeepSeek发布了其旗舰大语言模型的更新版本,该公司声称这一新版本已针对即将推出的新一代国产芯片进行了优化。
据DeepSeek介绍,该公司使用UE8M0数据类型训练了新的V3.1模型,这是对英伟达等公司已支持的FP8格式的扩展。在微信评论中,该组织澄清这一改变是为了迎接新一代芯片。"UE8M0 FP8是为即将发布的下一代国产芯片而设计的",该公司写道。
较低精度的数据类型提供了多项优势,包括减少内存消耗,提高推理和训练的吞吐量。然而值得注意的是,DeepSeek此前已在使用FP8,具体是E4M3类型。因此,切换到UE8M0似乎更多是为了兼容性而非效率提升。
DeepSeek并未透露其新模型所适配芯片的来源,但据报道,这家AI初创公司一直在与华为密切合作,使用其昇腾系列神经处理单元(NPU)进行训练和推理。
华为的昇腾910C为其CloudMatrix机架系统提供动力,但原生不支持FP8,这表明这家IT巨头可能正在开发更强大的加速器。
上周有报道称,DeepSeek曾尝试在华为昇腾加速器上训练其下一代R2模型,但遇到困难后改用英伟达H20加速器。据悉DeepSeek目前正在评估华为加速器的推理性能。
目前尚不清楚所谓的R2是否指本周发布的V3.1模型或即将推出的模型。
实际上并非全新模型
DeepSeek V3.1实际上并非全新模型,而是从早期V3检查点训练而来。
尽管如此,这个大语言模型确实承诺了显著改进。在V3.1中,DeepSeek不再区分"思考型"和"非思考型"模型。V3.1在单一模型中支持两种范式,并使用一对聊天模板在两者间切换。因此,该公司的聊天机器人界面现在不再提及R1。
统一模型同时支持推理和非推理输出的想法并非新颖。阿里巴巴今年早些时候尝试过类似做法,但发现该功能降低了其Qwen 3模型的质量后放弃了这一想法。
至少在基准测试中,DeepSeek的V3.1似乎避免了这个问题。与V3相比,该版本的非思考模型在各项指标上都取得了显著提升。
启用思考功能后,模型的提升较为温和。然而这并未完全说明全貌,DeepSeek指出该模型现在需要更少的思考Token就能得出答案,这应该有助于降低模型服务成本。
说到Token,DeepSeek已将其上下文窗口(可理解为短期记忆)的Token数量从65,536提升至131,072。虽然这是显著改进,但仍落后于Qwen3等其他中国模型,后者可处理百万级Token上下文。
DeepSeek还声称在工具和函数调用能力方面取得重大进展,这对于需要实时检索外部工具和数据的智能体AI工作负载至关重要。
例如,在针对自主浏览器使用任务的Browsecomp基准测试中,DeepSeek v3.1取得了30分的成绩,而R1的5月版本仅为8.9分。
除了通过聊天机器人服务和API端点提供访问外,DeepSeek还在Hugging Face和ModeScope上提供了基础模型和指令调优模型的权重下载。
Q&A
Q1:DeepSeek V3.1有什么新特点?
A:DeepSeek V3.1最大特点是使用UE8M0数据类型进行优化,专门为即将发布的国产芯片设计。同时它统一了"思考型"和"非思考型"模型功能,可在单一模型中通过聊天模板切换两种模式,并将上下文窗口从65,536个Token提升至131,072个。
Q2:为什么DeepSeek要切换到UE8M0数据类型?
A:DeepSeek切换到UE8M0主要是为了兼容即将推出的新一代国产芯片。虽然公司此前已使用FP8的E4M3类型,但UE8M0是专门为下一代国产芯片设计的,这表明可能有更强大的国产加速器即将问世。
Q3:DeepSeek V3.1性能如何?
A:在基准测试中,V3.1的非思考模式相比V3在各项指标上都有显著提升。在工具调用方面进步明显,如在Browsecomp浏览器任务测试中得分30分,远超此前R1版本的8.9分。同时模型需要更少思考Token就能得出答案,有助降低服务成本。
好文章,需要你的鼓励
微软于12月1日正式关闭混合现实协作平台Mesh,将用户引导至Teams的沉浸式活动功能。Mesh作为独立服务在2024年正式发布,提供3D虚拟会议环境,但与Teams功能重叠明显。微软已将相关功能直接整合到Teams中,需要商业Teams许可证和Premium许可证才能主持沉浸式活动。这标志着微软元宇宙雄心的终结,公司已放弃HoloLens项目和美军合同,转向AI发展战略。
这项由Snowflake AI Research发表的研究挑战了传统语言学对大型语言模型的批评,通过引入波兰语言学家Mańczak的理论框架,论证了LLM的成功实际上验证了"频率驱动语言"的观点。研究认为语言本质上是文本总和而非抽象系统,频率是其核心驱动力,为重新理解AI语言能力提供了新视角。
亚马逊云服务发布AI工厂解决方案,支持政府和监管行业在本地数据中心部署完整AWS AI基础设施。同时推出搭载三纳米Trainium3芯片的EC2 Trn3超级服务器,性能较前代提升4.4倍,能效提升4倍。此外还引入配备英伟达GB300 NVL72平台的P6e-GB300超级服务器,为万亿参数AI推理提供最高GPU密度支持。
freephdlabor是耶鲁大学团队开发的开源多智能体科研自动化框架,通过创建专业化AI研究团队替代传统单一AI助手的固化工作模式。该框架实现了动态工作流程调整、无损信息传递的工作空间机制,以及人机协作的质量控制系统,能够自主完成从研究构思到论文发表的全流程科研工作,为科研民主化和效率提升提供了革命性解决方案。