腾讯控股有限公司今天开源了一个新的语言模型系列——混元MT系列,该系列专门针对翻译任务进行了优化。
这家中国科技公司表示,该算法在一个流行的人工智能翻译基准测试中显著超越了谷歌翻译的表现。
混元MT系列包含四个模型。两个旗舰模型混元MT-7B和混元MT-Chimera-7B都拥有70亿个参数。此外还有两个量化或压缩版本的算法,这些版本通过牺牲一些输出质量来降低内存使用量。
腾讯使用四个不同的数据集对模型进行初始训练。前两个数据集包含33种语言编写的文本片段,但不包含任何关于如何执行翻译的信息。另外两个数据集包含数百万个所谓的配对数据,这些记录各自包含一个文本片段和对应的翻译。
根据腾讯的介绍,训练流程不仅为其混元MT模型配备了翻译能力,还提供了大量的通用知识。该公司使用名为MMLU-Pro的通用知识基准测试对算法进行了测试。混元MT显著超越了拥有80亿参数的Llama-3-8B-Base模型。
腾讯在初始训练后进行了强化学习阶段。在项目的这一部分,公司为混元MT模型提供了一系列训练任务,并对其响应质量提供反馈。模型利用这些反馈来提高输出质量。
这种试错学习过程由一个定制的AI模型监督。该模型根据混元MT生成的翻译与原文的语义相似性来评分,同时还考虑其他因素,包括算法处理特定领域术语的能力。
混元MT系列中的第一个AI——混元MT-7B,基于标准的语言模型架构。混元MT-Chimera-7B使用了一种更复杂的处理方法,称为集成学习。
与专家混合模型类似,集成学习算法包含多个神经网络。但专家混合模型只使用其中一个神经网络来处理用户提示,而集成学习使用所有神经网络。它为提示生成多个答案,然后将它们组合成一个更高质量的单一响应。
腾讯使用名为WMT25的AI翻译基准将混元MT与谷歌翻译进行了比较。根据该公司的说法,其模型系列在测试评估的31个语言对中的30个表现更好。在某些情况下,混元MT的得分高出65%。
该模型系列还超越了其他几家AI提供商的算法。腾讯表示,混元MT在WMT25基准测试的大多数语言对中得分高于GPT-4.1和Anthropic公司的Claude 4 Sonnet。
Q&A
Q1:混元MT系列包含哪些模型?
A:混元MT系列包含四个模型。两个旗舰模型混元MT-7B和混元MT-Chimera-7B都拥有70亿个参数,此外还有两个量化或压缩版本的算法,这些版本通过牺牲一些输出质量来降低内存使用量。
Q2:混元MT在翻译基准测试中表现如何?
A:腾讯使用WMT25基准将混元MT与谷歌翻译进行比较,其模型系列在测试评估的31个语言对中的30个表现更好,在某些情况下得分高出65%。同时在大多数语言对中得分也高于GPT-4.1和Claude 4 Sonnet。
Q3:混元MT-Chimera-7B与混元MT-7B有什么区别?
A:混元MT-7B基于标准的语言模型架构,而混元MT-Chimera-7B使用了更复杂的集成学习处理方法。集成学习使用所有神经网络为提示生成多个答案,然后将它们组合成一个更高质量的单一响应。
好文章,需要你的鼓励
企业AI搜索公司Glean宣布年度经常性收入(ARR)达3亿美元,较15个月前的1亿美元增长三倍。尽管谷歌、微软、OpenAI等科技巨头纷纷入局企业AI搜索市场,Glean凭借"上下文图谱"技术深度理解企业业务需求,并帮助客户显著降低AI计算成本。该公司提供按用量计费和混合定价两种模式,客户涵盖Databricks、Reddit、Pinterest及三星等企业。Glean上轮融资后估值达72亿美元。
香港中文大学与MiniMax提出ClaimDiff-RL框架,将图像描述的AI训练从整体打分升级为逐条核查,有效解决了传统方式导致AI"少说保平安"的问题,同时在多项基准测试上超越Gemini-3-Pro-Preview。
杰夫·贝索斯旗下的蓝色起源公司在佛罗里达卡纳维拉尔角进行静态点火测试时,新格伦重型火箭发生爆炸。这是美国历史上最大规模的火箭爆炸之一,也是蓝色起源公司遭遇的最严重失败。所有人员安全,但该事故可能导致新格伦火箭项目长期暂停。此前该火箭已成功完成三次发射,并实现了助推器回收和重复使用。
ParaVT是一个由南洋理工等多校联合提出的并行视频工具调用框架,通过让AI同时分析多段视频并引入PARA-GRPO算法解决训练中的格式崩溃与工具跳过问题,在六项长视频理解测试中平均提升约7.9%。