中国AI明星企业DeepSeek发布了其旗舰大语言模型的更新版本,该公司声称这一新版本已针对即将推出的新一代国产芯片进行了优化。
据DeepSeek介绍,该公司使用UE8M0数据类型训练了新的V3.1模型,这是对英伟达等公司已支持的FP8格式的扩展。在微信评论中,该组织澄清这一改变是为了迎接新一代芯片。"UE8M0 FP8是为即将发布的下一代国产芯片而设计的",该公司写道。
较低精度的数据类型提供了多项优势,包括减少内存消耗,提高推理和训练的吞吐量。然而值得注意的是,DeepSeek此前已在使用FP8,具体是E4M3类型。因此,切换到UE8M0似乎更多是为了兼容性而非效率提升。
DeepSeek并未透露其新模型所适配芯片的来源,但据报道,这家AI初创公司一直在与华为密切合作,使用其昇腾系列神经处理单元(NPU)进行训练和推理。
华为的昇腾910C为其CloudMatrix机架系统提供动力,但原生不支持FP8,这表明这家IT巨头可能正在开发更强大的加速器。
上周有报道称,DeepSeek曾尝试在华为昇腾加速器上训练其下一代R2模型,但遇到困难后改用英伟达H20加速器。据悉DeepSeek目前正在评估华为加速器的推理性能。
目前尚不清楚所谓的R2是否指本周发布的V3.1模型或即将推出的模型。
实际上并非全新模型
DeepSeek V3.1实际上并非全新模型,而是从早期V3检查点训练而来。
尽管如此,这个大语言模型确实承诺了显著改进。在V3.1中,DeepSeek不再区分"思考型"和"非思考型"模型。V3.1在单一模型中支持两种范式,并使用一对聊天模板在两者间切换。因此,该公司的聊天机器人界面现在不再提及R1。
统一模型同时支持推理和非推理输出的想法并非新颖。阿里巴巴今年早些时候尝试过类似做法,但发现该功能降低了其Qwen 3模型的质量后放弃了这一想法。
至少在基准测试中,DeepSeek的V3.1似乎避免了这个问题。与V3相比,该版本的非思考模型在各项指标上都取得了显著提升。
启用思考功能后,模型的提升较为温和。然而这并未完全说明全貌,DeepSeek指出该模型现在需要更少的思考Token就能得出答案,这应该有助于降低模型服务成本。
说到Token,DeepSeek已将其上下文窗口(可理解为短期记忆)的Token数量从65,536提升至131,072。虽然这是显著改进,但仍落后于Qwen3等其他中国模型,后者可处理百万级Token上下文。
DeepSeek还声称在工具和函数调用能力方面取得重大进展,这对于需要实时检索外部工具和数据的智能体AI工作负载至关重要。
例如,在针对自主浏览器使用任务的Browsecomp基准测试中,DeepSeek v3.1取得了30分的成绩,而R1的5月版本仅为8.9分。
除了通过聊天机器人服务和API端点提供访问外,DeepSeek还在Hugging Face和ModeScope上提供了基础模型和指令调优模型的权重下载。
Q&A
Q1:DeepSeek V3.1有什么新特点?
A:DeepSeek V3.1最大特点是使用UE8M0数据类型进行优化,专门为即将发布的国产芯片设计。同时它统一了"思考型"和"非思考型"模型功能,可在单一模型中通过聊天模板切换两种模式,并将上下文窗口从65,536个Token提升至131,072个。
Q2:为什么DeepSeek要切换到UE8M0数据类型?
A:DeepSeek切换到UE8M0主要是为了兼容即将推出的新一代国产芯片。虽然公司此前已使用FP8的E4M3类型,但UE8M0是专门为下一代国产芯片设计的,这表明可能有更强大的国产加速器即将问世。
Q3:DeepSeek V3.1性能如何?
A:在基准测试中,V3.1的非思考模式相比V3在各项指标上都有显著提升。在工具调用方面进步明显,如在Browsecomp浏览器任务测试中得分30分,远超此前R1版本的8.9分。同时模型需要更少思考Token就能得出答案,有助降低服务成本。
好文章,需要你的鼓励
Instagram负责人莫塞里在接受采访时透露,平台正考虑引入长视频内容功能,尽管此前一直专注于短视频。他承认为了吸引优质内容,Instagram可能需要支持长视频格式。此外,Meta最近推出了"您的算法"功能,旨在让用户更好地控制信息流内容。莫塞里承诺未来将提供更多工具,让用户主动塑造个性化内容,但完整实现可能需要2-4年时间。
香港大学联合Adobe研究院提出PS-VAE技术,成功解决了AI无法同时具备图像理解和生成能力的难题。通过创新的两阶段训练策略,让AI既能准确理解图片语义,又能生成高质量图像,在图像编辑任务上性能提升近4倍,为统一视觉AI系统开辟新路径,在数字创作、教育、电商等领域具有广阔应用前景。
在信息爆炸的时代,AI实验室的研究员们常常需要面对海量的论文、专利文件、论坛发言等各种渠道的信息。传统的查找方式不仅费时费力,还容易遗漏关键内容。那么,有没有一种方式能让AI真正代替人工,完成从找资料到写出稿的全流程工作?
华中科技大学与马里兰大学研究团队开发出Sage评估框架,首次无需人工标注即可评估AI评判员可靠性。研究发现即使最先进的AI模型在评判任务中也存在严重不一致问题,近四分之一困难情况下无法保持稳定偏好。团队提出明确评判标准和专门微调等改进方法,为构建更可靠AI评估体系提供重要工具。