11月25日,由国家数据局主办的“数据要素×”大赛落幕。蚂蚁数科凭借“数据锻造工厂”——高知识密度稀缺数据锻造解决方案荣获国赛优秀奖(商业价值奖)及省级金奖。
“数据要素×”大赛是由国家数据局联合中央网信办、工业和信息化部等20多个部委及机构共同主办的全国性赛事,全国共计超2.2万个参赛项目,设置工业制造、现代农业、金融服务等13个行业赛道及开放性创新赛道,聚焦数据要素融合应用。当前,大模型的训练与优化高度依赖高质量数据,其中高知识密度、可验证的稀缺数据供给尤为不足,成为行业共性难题。

蚂蚁数科此次参赛的“数据锻造工厂”解决方案,核心依托形式化技术实现高质量数据的合成、生产与验证。该方案可将人类顶级专家的可验证经验转化为大模型训练数据,实现大模型泛化能力与专家经验严谨性的结合,针对性解决AGI时代高质量数据稀缺问题。
作为蚂蚁集团旗下科技商业化板块,技术落地与价值转化是蚂蚁数科的核心方向。目前,“数据锻造工厂”已在江苏太仓数据标注基地投入应用,旨在通过跨行业人才与前沿技术,为长三角制造业、金融、医疗等领域的大模型落地提供场景化、高质量的训练数据支撑。
记者获悉,蚂蚁数科团队已孵化出IMO奥赛题形式化转写数据集,正与国内某头部模型厂商合作,在通用大模型及数学模型测试中持续优化方案。
蚂蚁数科相关负责人表示,未来将继续围绕数据要素领域,坚持技术创新与业务落地并重,探索高质量数据在AI发展中的更多应用场景。
好文章,需要你的鼓励
模型上下文协议(MCP)服务器是连接概率性大语言模型和确定性微服务工作流的关键节点,充当推理引擎与外部数据工具的翻译层。在生产环境中部署AI智能体时,MCP服务器承担着定义智能体能力、管理上下文数据和执行操作三大核心职责。由于其非确定性客户端特性,传统单元测试无法有效验证,需要通过端到端测试来确保系统可靠性,这使得MCP服务器成为智能体架构中不可或缺的关键基础设施。
SimWorld是由UCSD等多所顶尖院校联合开发的革命性AI仿真平台,基于虚幻引擎5构建了具备真实物理规律的虚拟城市环境。该平台支持无限扩展的程序化世界生成和自然语言交互,让AI智能体能够在复杂环境中学会生存、合作和竞争,为通用人工智能的发展提供了前所未有的训练平台。
英伟达推出Vera Rubin计算平台,专为驱动具备思考和推理能力的智能AI系统而设计。该平台采用NVL72液冷机架系统,集成六种芯片包括新Vera CPU和Rubin GPU。相比Blackwell架构,Rubin GPU推理速度提升5倍,训练速度提升3.5倍。平台还推出推理上下文内存存储解决方案,性能提升5倍。此外,英伟达还发布了面向自动驾驶的开源Alpamayo模型系列。
浙江大学联合华为提出C2DLM,这是一种因果概念引导的扩散语言模型,通过自动提取因果关系并融入注意力机制来增强AI推理能力。相比传统方法,C2DLM在推理任务上平均提升1.31%-12%,训练效率提高3.2倍,为解决语言模型推理能力不足开辟了新路径。