腾讯控股有限公司今天开源了一个新的语言模型系列——混元MT系列,该系列专门针对翻译任务进行了优化。
这家中国科技公司表示,该算法在一个流行的人工智能翻译基准测试中显著超越了谷歌翻译的表现。
混元MT系列包含四个模型。两个旗舰模型混元MT-7B和混元MT-Chimera-7B都拥有70亿个参数。此外还有两个量化或压缩版本的算法,这些版本通过牺牲一些输出质量来降低内存使用量。
腾讯使用四个不同的数据集对模型进行初始训练。前两个数据集包含33种语言编写的文本片段,但不包含任何关于如何执行翻译的信息。另外两个数据集包含数百万个所谓的配对数据,这些记录各自包含一个文本片段和对应的翻译。
根据腾讯的介绍,训练流程不仅为其混元MT模型配备了翻译能力,还提供了大量的通用知识。该公司使用名为MMLU-Pro的通用知识基准测试对算法进行了测试。混元MT显著超越了拥有80亿参数的Llama-3-8B-Base模型。
腾讯在初始训练后进行了强化学习阶段。在项目的这一部分,公司为混元MT模型提供了一系列训练任务,并对其响应质量提供反馈。模型利用这些反馈来提高输出质量。
这种试错学习过程由一个定制的AI模型监督。该模型根据混元MT生成的翻译与原文的语义相似性来评分,同时还考虑其他因素,包括算法处理特定领域术语的能力。
混元MT系列中的第一个AI——混元MT-7B,基于标准的语言模型架构。混元MT-Chimera-7B使用了一种更复杂的处理方法,称为集成学习。
与专家混合模型类似,集成学习算法包含多个神经网络。但专家混合模型只使用其中一个神经网络来处理用户提示,而集成学习使用所有神经网络。它为提示生成多个答案,然后将它们组合成一个更高质量的单一响应。
腾讯使用名为WMT25的AI翻译基准将混元MT与谷歌翻译进行了比较。根据该公司的说法,其模型系列在测试评估的31个语言对中的30个表现更好。在某些情况下,混元MT的得分高出65%。
该模型系列还超越了其他几家AI提供商的算法。腾讯表示,混元MT在WMT25基准测试的大多数语言对中得分高于GPT-4.1和Anthropic公司的Claude 4 Sonnet。
Q&A
Q1:混元MT系列包含哪些模型?
A:混元MT系列包含四个模型。两个旗舰模型混元MT-7B和混元MT-Chimera-7B都拥有70亿个参数,此外还有两个量化或压缩版本的算法,这些版本通过牺牲一些输出质量来降低内存使用量。
Q2:混元MT在翻译基准测试中表现如何?
A:腾讯使用WMT25基准将混元MT与谷歌翻译进行比较,其模型系列在测试评估的31个语言对中的30个表现更好,在某些情况下得分高出65%。同时在大多数语言对中得分也高于GPT-4.1和Claude 4 Sonnet。
Q3:混元MT-Chimera-7B与混元MT-7B有什么区别?
A:混元MT-7B基于标准的语言模型架构,而混元MT-Chimera-7B使用了更复杂的集成学习处理方法。集成学习使用所有神经网络为提示生成多个答案,然后将它们组合成一个更高质量的单一响应。
好文章,需要你的鼓励
谷歌Agent Development Kit(ADK)革新了AI应用开发模式,采用事件驱动的运行时架构,将代理、工具和持久化状态整合为统一应用。ADK以Runner为核心,通过事件循环处理用户请求、模型调用和外部工具执行。执行逻辑层管理LLM调用和工具回调,服务层提供会话、文件存储等持久化能力。这种架构支持多步推理、实时反馈和状态管理,为构建超越简单聊天界面的生产级AI应用提供了完整框架。
上海AI实验室联合团队开发RoboVIP系统,通过视觉身份提示技术解决机器人训练数据稀缺问题。该系统能生成多视角、时间连贯的机器人操作视频,利用夹爪状态信号精确识别交互物体,构建百万级视觉身份数据库。实验显示,RoboVIP显著提升机器人在复杂环境中的操作成功率,为机器人智能化发展提供重要技术突破。
苹果在iOS 26中推出全新游戏应用,为iPhone、iPad和Mac用户提供个性化的游戏中心。该应用包含五个主要版块:主页展示最近游戏和推荐内容,Arcade专区提供超过200款无广告游戏,好友功能显示Game Center动态并支持游戏挑战,资料库可浏览已安装游戏并提供筛选选项,搜索功能支持按类别浏览。iOS 26.2版本还增加了游戏手柄导航支持,为游戏玩家提供更便捷的操作体验。
英伟达研究团队提出GDPO方法,解决AI多目标训练中的"奖励信号坍缩"问题。该方法通过分别评估各技能再综合考量,避免了传统GRPO方法简单相加导致的信息丢失。在工具调用、数学推理、代码编程三大场景测试中,GDPO均显著优于传统方法,准确率提升最高达6.3%,且训练过程更稳定。该技术已开源并支持主流AI框架。