腾讯控股有限公司今天开源了一个新的语言模型系列——混元MT系列,该系列专门针对翻译任务进行了优化。
这家中国科技公司表示,该算法在一个流行的人工智能翻译基准测试中显著超越了谷歌翻译的表现。
混元MT系列包含四个模型。两个旗舰模型混元MT-7B和混元MT-Chimera-7B都拥有70亿个参数。此外还有两个量化或压缩版本的算法,这些版本通过牺牲一些输出质量来降低内存使用量。
腾讯使用四个不同的数据集对模型进行初始训练。前两个数据集包含33种语言编写的文本片段,但不包含任何关于如何执行翻译的信息。另外两个数据集包含数百万个所谓的配对数据,这些记录各自包含一个文本片段和对应的翻译。
根据腾讯的介绍,训练流程不仅为其混元MT模型配备了翻译能力,还提供了大量的通用知识。该公司使用名为MMLU-Pro的通用知识基准测试对算法进行了测试。混元MT显著超越了拥有80亿参数的Llama-3-8B-Base模型。
腾讯在初始训练后进行了强化学习阶段。在项目的这一部分,公司为混元MT模型提供了一系列训练任务,并对其响应质量提供反馈。模型利用这些反馈来提高输出质量。
这种试错学习过程由一个定制的AI模型监督。该模型根据混元MT生成的翻译与原文的语义相似性来评分,同时还考虑其他因素,包括算法处理特定领域术语的能力。
混元MT系列中的第一个AI——混元MT-7B,基于标准的语言模型架构。混元MT-Chimera-7B使用了一种更复杂的处理方法,称为集成学习。
与专家混合模型类似,集成学习算法包含多个神经网络。但专家混合模型只使用其中一个神经网络来处理用户提示,而集成学习使用所有神经网络。它为提示生成多个答案,然后将它们组合成一个更高质量的单一响应。
腾讯使用名为WMT25的AI翻译基准将混元MT与谷歌翻译进行了比较。根据该公司的说法,其模型系列在测试评估的31个语言对中的30个表现更好。在某些情况下,混元MT的得分高出65%。
该模型系列还超越了其他几家AI提供商的算法。腾讯表示,混元MT在WMT25基准测试的大多数语言对中得分高于GPT-4.1和Anthropic公司的Claude 4 Sonnet。
Q&A
Q1:混元MT系列包含哪些模型?
A:混元MT系列包含四个模型。两个旗舰模型混元MT-7B和混元MT-Chimera-7B都拥有70亿个参数,此外还有两个量化或压缩版本的算法,这些版本通过牺牲一些输出质量来降低内存使用量。
Q2:混元MT在翻译基准测试中表现如何?
A:腾讯使用WMT25基准将混元MT与谷歌翻译进行比较,其模型系列在测试评估的31个语言对中的30个表现更好,在某些情况下得分高出65%。同时在大多数语言对中得分也高于GPT-4.1和Claude 4 Sonnet。
Q3:混元MT-Chimera-7B与混元MT-7B有什么区别?
A:混元MT-7B基于标准的语言模型架构,而混元MT-Chimera-7B使用了更复杂的集成学习处理方法。集成学习使用所有神经网络为提示生成多个答案,然后将它们组合成一个更高质量的单一响应。
好文章,需要你的鼓励
三星与AI搜索引擎Perplexity合作,将其应用引入智能电视。2025年三星电视用户可立即使用,2024和2023年款设备将通过系统更新获得支持。用户可通过打字或语音提问,Perplexity还为用户提供12个月免费Pro订阅。尽管面临版权争议,这一合作仍引发关注。
浙江大学团队提出动态专家搜索方法,让AI能根据不同问题灵活调整内部专家配置。该方法在数学、编程等任务上显著提升推理准确率,且不增加计算成本。研究发现不同类型问题偏爱不同专家配置,为AI推理优化开辟新路径。
苹果M5 MacBook Pro评测显示这是一次相对较小的升级。最大变化是M5芯片,CPU性能比M4提升约9%,多核性能比M4 MacBook Air快19%,GPU性能提升37%。功耗可能有所增加但电池续航保持24小时。评测者认为该产品不适合M4用户升级,但对使用older型号用户仍是强有力选择。
清华大学研究团队提出SIRI方法,通过"压缩-扩张"交替训练策略,成功解决了大型推理模型"话多且准确率低"的问题。实验显示,该方法在数学竞赛题上将模型准确率提升43.2%的同时,输出长度减少46.9%,真正实现了效率与性能的双重优化,为AI模型训练提供了新思路。