德国实验室推出DeepSeek R1-0528变体,速度提升200%

德国TNG Technology Consulting公司基于DeepSeek R1-0528开发出新变体R1T2 Chimera,采用专家组装技术融合三个预训练模型。该模型在保持90%原版推理能力的同时,输出token数量减少60%,推理速度提升200%。新模型采用MIT开源许可,已在Hugging Face平台发布,为企业应用提供更高效的AI推理解决方案。

距离中国AI初创公司DeepSeek(香港高瓴资本管理公司旗下)发布其热门开源模型DeepSeek R1-0528的最新版本仅一个多月时间。

与其前身DeepSeek-R1一样——这款模型以其低廉的训练成本和在推理任务上的出色表现震撼了AI界和全球商业社区,并且免费向开发者和企业开放——R1-0528已经被其他AI实验室和开发者进行改进和重构,这在很大程度上得益于其宽松的Apache 2.0许可证。

本周,成立24年的德国公司TNG Technology Consulting GmbH发布了这样一个改进版本:DeepSeek-TNG R1T2 Chimera,这是其Chimera大语言模型系列中的最新模型。R1T2在效率和速度方面实现了显著提升,在智能基准测试中得分达到R1-0528的90%以上,同时生成答案时使用的输出Token数量不到R1-0528的40%。

这意味着它产生更简洁的回应,直接转化为更快的推理速度和更低的计算成本。在TNG在AI代码共享社区Hugging Face上发布的新R1T2模型卡中,公司表示它"比常规R1快约20%"(1月发布的版本),"比R1-0528快两倍以上"(DeepSeek 5月的官方更新)。

AI开发者社区的反响非常积极。Hugging Face高级主管Vaibhav (VB) Srivastav在X上写道:"太棒了!DeepSeek R1T2——比R1-0528快200%,比R1快20%。在GPQA和AIME 24上显著优于R1,通过专家集成方法与DS V3、R1和R1-0528结合制成——并且采用MIT许可证,可在Hugging Face上获得。"

这一性能提升得益于TNG的专家集成(Assembly-of-Experts,AoE)方法——这是一种通过选择性合并多个预训练模型的权重张量(内部参数)来构建大语言模型的技术,TNG在5月发表在arXiv(非同行评议的开放获取在线期刊)上的论文中描述了这种方法。

作为原始R1T Chimera的继任者,R1T2引入了新的"三重思维"配置,整合了三个父模型:DeepSeek-R1-0528、DeepSeek-R1和DeepSeek-V3-0324。结果是一个设计用于保持高推理能力同时显著降低推理成本的模型。

R1T2的构建无需进一步微调或重新训练。它继承了R1-0528的推理强度、R1的结构化思维模式,以及V3-0324简洁、面向指令的行为——为企业和研究用途提供了一个更高效但仍然能力强大的模型。

**专家集成(AoE)与专家混合(MoE)的区别**

专家混合(MoE)是一种架构设计,其中不同的组件或"专家"根据输入有条件地激活。在像DeepSeek-V3或Mixtral这样的MoE大语言模型中,在任何给定Token的前向传递过程中,只有模型专家层的一个子集(例如,256个中的8个)处于活跃状态。这使得非常大的模型能够实现更高的参数计数和专业化,同时保持可控的推理成本——因为每个Token只评估网络的一小部分。

专家集成(AoE)是一种模型合并技术,而不是一种架构。它用于通过选择性插值多个预训练MoE模型的权重张量来创建新模型。

AoE中的"专家"指的是被合并的模型组件——通常是MoE层内的路由专家张量——而不是在运行时动态激活的专家。

TNG的AoE实现主要专注于合并路由专家张量——模型中最负责专门推理的部分——同时通常保留来自像V3-0324这样更快模型的更高效共享层和注意力层。这种方法使得生成的Chimera模型能够继承推理强度,而不复制最强父模型的冗长性或延迟。

**性能和速度:基准测试的实际表现**

根据TNG提供的基准比较,R1T2在AIME-24、AIME-25和GPQA-Diamond测试集中测得的推理性能达到其最智能父模型DeepSeek-R1-0528的90%至92%。

然而,与DeepSeek-R1-0528不同——后者由于其扩展的思维链推理而倾向于产生冗长、详细的答案——R1T2被设计得更加简洁。它提供同样智能的回应,同时使用显著更少的词汇。

TNG不专注于原始处理时间或每秒Token数,而是以每个答案的输出Token计数来衡量"速度"——这是成本和延迟的实用代理指标。根据TNG分享的基准测试,R1T2生成回应时使用的Token约为R1-0528所需Token的40%。

这转化为输出长度减少60%,直接减少推理时间和计算负载,将响应速度提升2倍,即200%。

与原始DeepSeek-R1相比,R1T2平均也更简洁约20%,为高吞吐量或成本敏感的部署提供了有意义的效率提升。

这种效率并非以牺牲智能为代价。如TNG技术论文中展示的基准图表所示,R1T2在智能与输出成本曲线上处于理想区域。它保持推理质量同时最小化冗长性——这对推理速度、吞吐量和成本都很重要的企业应用来说是关键结果。

**部署考虑和可用性**

R1T2在宽松的MIT许可证下发布,现在可在Hugging Face上获得,这意味着它是开源的,可用于构建商业应用程序。

TNG指出,虽然该模型非常适合一般推理任务,但由于从其DeepSeek-R1血统继承的限制,目前不建议用于需要函数调用或工具使用的用例。这些问题可能在未来更新中得到解决。

公司还建议欧洲用户评估与2025年8月2日生效的《欧盟人工智能法案》的合规性。在欧盟运营的企业应审查相关条款,或在该日期后如果无法满足要求则考虑停止使用模型。

然而,在美国国内运营并为美国用户或其他国家用户提供服务的美国公司不受《欧盟人工智能法案》条款约束,这应该给他们在使用和部署这个免费、快速的开源推理模型时相当大的灵活性。如果他们为欧盟用户提供服务,《欧盟法案》的一些条款仍将适用。

TNG已经通过OpenRouter和Chutes等平台提供了先前的Chimera变体,据报告每天处理数十亿Token。R1T2的发布代表了这一公开可用性努力的进一步发展。

**关于TNG Technology Consulting GmbH**

TNG Technology Consulting GmbH成立于2001年1月,总部位于德国巴伐利亚州,雇佣超过900人,其中博士和技术专家比例很高。

公司专注于软件开发、人工智能和DevOps/云服务,为电信、保险、汽车、电子商务和物流等行业的主要企业客户提供服务。

TNG作为基于价值观的咨询合作伙伴运营。其独特的结构建立在运营研究和自我管理原则基础上,支持技术创新文化。它积极为开源社区和研究做出贡献,如R1T2的公开发布和其专家集成方法的发表所证明的那样。

**对企业技术决策者的意义**

对于CTO、AI平台所有者、工程主管和IT采购团队,R1T2带来了切实的好处和战略选择:

**降低推理成本**:每个任务使用更少的输出Token,R1T2减少了GPU时间和能耗,直接转化为基础设施节省——在高吞吐量或实时环境中尤其重要。

**高推理质量无开销**:它保持了像R1-0528这样顶级模型的大部分推理能力,但没有其冗长性。这对于需要简洁答案的结构化任务(数学、编程、逻辑)是理想的。

**开放和可修改**:MIT许可证允许完全的部署控制和定制,支持在受监管或隔离环境中进行私有托管、模型对齐或进一步训练。

**新兴模块化**:AoE方法暗示了一个未来,其中模型以模块化方式构建,允许企业通过重新组合现有模型的优势来组装专门变体,而不是从头重新训练。

**注意事项**:依赖函数调用、工具使用或高级智能体编排的企业应注意当前限制,尽管未来的Chimera更新可能会解决这些差距。

TNG鼓励研究人员、开发者和企业用户探索该模型,测试其行为并提供反馈。R1T2 Chimera可在huggingface.co/tngtech/DeepSeek-TNG-R1T2-Chimera获得,技术咨询可发送至research@tngtech.com。

有关技术背景和基准方法,TNG的研究论文可在arXiv:2506.14794获得。

来源:VentureBeat

0赞

好文章,需要你的鼓励

2025

07/04

22:12

分享

点赞

邮件订阅