中国公司智浦AI完全使用华为处理器训练出图像生成模型,证明中国企业在无法获得先进西方芯片的情况下,仍能构建具有竞争力的AI系统。
智浦在周二发布的声明中表示,该模型标志着首次有最先进的多模态模型在中国制造的芯片上完成全部训练周期。这家总部位于北京的公司使用MindSpore AI框架在华为昇腾Atlas 800T A2设备上训练该模型,从数据预处理到大规模训练的整个流程都没有依赖西方硬件。
这一成就对智浦具有战略意义。去年,美国商务部以该公司涉嫌与中国军方有关联为由,将其列入违反美国国家安全或外交政策利益的实体清单。这一指定实际上切断了该公司获取英伟达H100和A100 GPU的渠道,而这些GPU已成为训练先进AI模型的标准配置,迫使中国企业围绕国产芯片架构开发替代方案。
被列入清单后,智浦开始与华为合作开发GLM-Image。华为的昇腾处理器已成为受限无法购买英伟达硬件的中国AI公司的主要替代选择。该模型在昇腾芯片上的成功训练提供了一个数据点,证明中国企业尽管在获取西方芯片方面受到限制,仍能开发出具有竞争力的AI系统。
智浦在声明中补充道:"这证明了在国产全栈计算平台上训练高性能多模态生成模型的可行性。"
智浦通过API提供GLM-Image服务,每生成一张图像收费0.1元人民币(约0.014美元)。该公司在GitHub、Hugging Face和ModelScope社区发布了模型权重,供独立部署使用。
这一定价使GLM-Image成为企业大规模生成营销材料、演示文稿和其他文本密集型视觉内容的经济实惠选择。
混合架构设计
根据智浦的技术报告,GLM-Image采用混合架构,结合了90亿参数的自回归模型和70亿参数的扩散解码器。自回归组件负责指令理解和整体图像构图,而扩散解码器则专注于渲染精细细节和准确文本。
该架构解决了生成知识密集型视觉内容时的挑战,在这些场景中语义理解和精确文本渲染都很重要,例如演示幻灯片、信息图表和商业海报。
在CVTG-2K基准测试中,该测试衡量在多个图像位置放置文本的准确性,GLM-Image的单词准确度得分为0.9116,在开源模型中排名第一。该模型在LongText-Bench长文本渲染测试中也处于领先地位,在包括标识、海报和对话框在内的八个场景中,英文得分0.952,中文得分0.979。
报告补充说,该模型原生支持从1024×1024到2048×2048像素的多种分辨率,无需重新训练。
针对昇腾硬件的优化
在昇腾硬件上训练GLM-Image需要智浦为华为的芯片架构开发定制优化技术。该公司构建了一个训练套件,实现了动态图多级流水线部署,使训练过程的不同阶段能够并发运行,减少瓶颈。
智浦还创建了与昇腾架构兼容的高性能融合算子,并采用多流并行技术在分布式训练期间重叠通信和计算操作。这些优化旨在从硬件中提取最大性能,而这些硬件的运行方式与大多数AI框架默认针对的英伟达GPU不同。
这种技术方法验证了可以在中国国产芯片生态系统上训练具有竞争力的AI模型,尽管在开发时间和工程投入方面的成本仍不清楚。
智浦没有透露训练该模型使用了多少处理器或花费了多长时间,也没有说明与基于英伟达的同等系统相比需求如何。
对企业的影响
对于在中国运营的跨国企业来说,GLM-Image在国产硬件上的训练提供了证据,表明中国AI基础设施可以支持最先进的模型开发。在中国有业务的公司可能需要评估是否围绕华为昇腾等平台和MindSpore等框架制定战略。
该模型的发布正值中国企业投资国产AI基础设施替代方案之际。出口管制是会减缓还是加速平行AI生态系统的发展,仍然是政策辩论的主题。
Q&A
Q1:GLM-Image模型是如何训练出来的?
A:GLM-Image是智浦AI公司完全使用华为昇腾Atlas 800T A2芯片和MindSpore AI框架训练出来的图像生成模型。这是首次有最先进的多模态模型在中国制造的芯片上完成全部训练周期,从数据预处理到大规模训练的整个流程都没有依赖西方硬件。
Q2:GLM-Image在文本渲染方面表现如何?
A:GLM-Image在文本渲染方面表现优异。在CVTG-2K基准测试中,它的单词准确度得分为0.9116,在开源模型中排名第一。在LongText-Bench长文本渲染测试中,英文得分0.952,中文得分0.979,在包括标识、海报和对话框等八个场景中都处于领先地位。
Q3:普通用户如何使用GLM-Image模型?
A:智浦通过API提供GLM-Image服务,每生成一张图像收费0.1元人民币(约0.014美元)。该公司还在GitHub、Hugging Face和ModelScope社区发布了模型权重,用户可以下载进行独立部署使用。这一定价使其成为企业大规模生成营销材料、演示文稿等视觉内容的经济实惠选择。
好文章,需要你的鼓励
企业AI搜索公司Glean宣布年度经常性收入(ARR)达3亿美元,较15个月前的1亿美元增长三倍。尽管谷歌、微软、OpenAI等科技巨头纷纷入局企业AI搜索市场,Glean凭借"上下文图谱"技术深度理解企业业务需求,并帮助客户显著降低AI计算成本。该公司提供按用量计费和混合定价两种模式,客户涵盖Databricks、Reddit、Pinterest及三星等企业。Glean上轮融资后估值达72亿美元。
香港中文大学与MiniMax提出ClaimDiff-RL框架,将图像描述的AI训练从整体打分升级为逐条核查,有效解决了传统方式导致AI"少说保平安"的问题,同时在多项基准测试上超越Gemini-3-Pro-Preview。
杰夫·贝索斯旗下的蓝色起源公司在佛罗里达卡纳维拉尔角进行静态点火测试时,新格伦重型火箭发生爆炸。这是美国历史上最大规模的火箭爆炸之一,也是蓝色起源公司遭遇的最严重失败。所有人员安全,但该事故可能导致新格伦火箭项目长期暂停。此前该火箭已成功完成三次发射,并实现了助推器回收和重复使用。
ParaVT是一个由南洋理工等多校联合提出的并行视频工具调用框架,通过让AI同时分析多段视频并引入PARA-GRPO算法解决训练中的格式崩溃与工具跳过问题,在六项长视频理解测试中平均提升约7.9%。