中国AI明星企业DeepSeek发布了其旗舰大语言模型的更新版本,该公司声称这一新版本已针对即将推出的新一代国产芯片进行了优化。
据DeepSeek介绍,该公司使用UE8M0数据类型训练了新的V3.1模型,这是对英伟达等公司已支持的FP8格式的扩展。在微信评论中,该组织澄清这一改变是为了迎接新一代芯片。"UE8M0 FP8是为即将发布的下一代国产芯片而设计的",该公司写道。
较低精度的数据类型提供了多项优势,包括减少内存消耗,提高推理和训练的吞吐量。然而值得注意的是,DeepSeek此前已在使用FP8,具体是E4M3类型。因此,切换到UE8M0似乎更多是为了兼容性而非效率提升。
DeepSeek并未透露其新模型所适配芯片的来源,但据报道,这家AI初创公司一直在与华为密切合作,使用其昇腾系列神经处理单元(NPU)进行训练和推理。
华为的昇腾910C为其CloudMatrix机架系统提供动力,但原生不支持FP8,这表明这家IT巨头可能正在开发更强大的加速器。
上周有报道称,DeepSeek曾尝试在华为昇腾加速器上训练其下一代R2模型,但遇到困难后改用英伟达H20加速器。据悉DeepSeek目前正在评估华为加速器的推理性能。
目前尚不清楚所谓的R2是否指本周发布的V3.1模型或即将推出的模型。
实际上并非全新模型
DeepSeek V3.1实际上并非全新模型,而是从早期V3检查点训练而来。
尽管如此,这个大语言模型确实承诺了显著改进。在V3.1中,DeepSeek不再区分"思考型"和"非思考型"模型。V3.1在单一模型中支持两种范式,并使用一对聊天模板在两者间切换。因此,该公司的聊天机器人界面现在不再提及R1。
统一模型同时支持推理和非推理输出的想法并非新颖。阿里巴巴今年早些时候尝试过类似做法,但发现该功能降低了其Qwen 3模型的质量后放弃了这一想法。
至少在基准测试中,DeepSeek的V3.1似乎避免了这个问题。与V3相比,该版本的非思考模型在各项指标上都取得了显著提升。
启用思考功能后,模型的提升较为温和。然而这并未完全说明全貌,DeepSeek指出该模型现在需要更少的思考Token就能得出答案,这应该有助于降低模型服务成本。
说到Token,DeepSeek已将其上下文窗口(可理解为短期记忆)的Token数量从65,536提升至131,072。虽然这是显著改进,但仍落后于Qwen3等其他中国模型,后者可处理百万级Token上下文。
DeepSeek还声称在工具和函数调用能力方面取得重大进展,这对于需要实时检索外部工具和数据的智能体AI工作负载至关重要。
例如,在针对自主浏览器使用任务的Browsecomp基准测试中,DeepSeek v3.1取得了30分的成绩,而R1的5月版本仅为8.9分。
除了通过聊天机器人服务和API端点提供访问外,DeepSeek还在Hugging Face和ModeScope上提供了基础模型和指令调优模型的权重下载。
Q&A
Q1:DeepSeek V3.1有什么新特点?
A:DeepSeek V3.1最大特点是使用UE8M0数据类型进行优化,专门为即将发布的国产芯片设计。同时它统一了"思考型"和"非思考型"模型功能,可在单一模型中通过聊天模板切换两种模式,并将上下文窗口从65,536个Token提升至131,072个。
Q2:为什么DeepSeek要切换到UE8M0数据类型?
A:DeepSeek切换到UE8M0主要是为了兼容即将推出的新一代国产芯片。虽然公司此前已使用FP8的E4M3类型,但UE8M0是专门为下一代国产芯片设计的,这表明可能有更强大的国产加速器即将问世。
Q3:DeepSeek V3.1性能如何?
A:在基准测试中,V3.1的非思考模式相比V3在各项指标上都有显著提升。在工具调用方面进步明显,如在Browsecomp浏览器任务测试中得分30分,远超此前R1版本的8.9分。同时模型需要更少思考Token就能得出答案,有助降低服务成本。
好文章,需要你的鼓励
雅虎、Quora、Medium等在线媒体品牌正采用名为RSL的新协议,防止AI公司未经授权复制其内容用于模型训练。RSL协议基于RSS标准开发,为AI时代的互联网提供缺失的许可层。该协议旨在成为比robots.txt更强大的技术层,应对目前占互联网流量一半以上的AI爬虫。Reddit、MIT出版社等多家机构已加入该协议。随着AI导致网站流量下降25%,出版商正通过诉讼或授权协议寻求补偿。
腾讯ARC实验室推出AudioStory系统,首次实现AI根据复杂指令创作完整长篇音频故事。该系统结合大语言模型的叙事推理能力与音频生成技术,通过交错式推理生成、解耦桥接机制和渐进式训练,能够将复杂指令分解为连续音频场景并保持整体连贯性。在AudioStory-10K基准测试中表现优异,为AI音频创作开辟新方向。
思科280亿美元收购Splunk后的18个月里,两家公司专注于将Splunk的机器数据分析技术与思科网络产品线融合,打造"思科数据织网"。Splunk平台高级副总裁表示,收购后的协同效应为Splunk带来新动力,公司策略得到放大而非偏离。双方快速整合工程团队,推出AI Canvas等项目,致力于解决企业IT数据孤岛问题。新举措包括将机器数据与业务洞察连接,推出面向Snowflake的联邦搜索功能。
Meta与特拉维夫大学联合研发的VideoJAM技术,通过让AI同时学习外观和运动信息,显著解决了当前视频生成模型中动作不连贯、违反物理定律的核心问题。该技术仅需添加两个线性层就能大幅提升运动质量,在多项测试中超越包括Sora在内的商业模型,为AI视频生成的实用化应用奠定了重要基础。