中国智谱AI公司完全使用华为处理器训练图像生成模型,证明中国企业在无法获得先进西方芯片的情况下,仍能构建具有竞争力的AI系统。
该模型于周二发布,智谱在声明中表示,这是首次有最先进的多模态模型在中国制造的芯片上完成全部训练周期。这家总部位于北京的公司在华为昇腾Atlas 800T A2设备上使用MindSpore AI框架训练模型,从数据预处理到大规模训练的整个流程都无需依赖西方硬件。
对于智谱而言,这一成就具有战略意义。去年,美国商务部将智谱列入因涉嫌与中国军方有联系而违背美国国家安全或外交政策利益的实体清单。这一指定有效切断了该公司获得英伟达H100和A100 GPU的渠道,而这些GPU已成为训练先进AI模型的标准配置,迫使中国企业围绕国产芯片架构开发替代方案。
被列入清单后,智谱开始与华为在GLM-Image项目上合作。华为昇腾处理器已成为受限无法购买英伟达硬件的中国AI公司的主要替代选择。该模型在昇腾芯片上的成功训练提供了一个数据点,证明中国企业尽管在获得西方芯片方面受到限制,仍能开发出具有竞争力的AI系统。
智谱在声明中补充道:"这证明了在国产全栈计算平台上训练高性能多模态生成式模型的可行性。"
智谱通过API提供GLM-Image服务,每生成一张图像收费0.1元人民币(约0.014美元)。该公司在GitHub、Hugging Face和ModelScope社区发布了模型权重,供独立部署使用。
这一定价使GLM-Image成为企业大规模生成营销材料、演示文稿和其他文字密集型视觉内容的经济高效选择。
根据智谱的技术报告,GLM-Image采用混合架构,结合了90亿参数的自回归模型和70亿参数的扩散解码器。自回归组件处理指令理解和整体图像构图,而扩散解码器专注于渲染精细细节和准确文本。
该架构解决了生成知识密集型视觉内容时的挑战,在这些场景中语义理解和精确文本渲染都很重要,如演示幻灯片、信息图表和商业海报。
在衡量多个图像位置文本放置准确性的CVTG-2K基准测试中,GLM-Image获得了0.9116的单词准确度分数,在开源模型中排名第一。该模型在LongText-Bench扩展文本段落渲染测试中也领先,在包括标识、海报和对话框在内的八个场景中,英文得分0.952,中文得分0.979。
报告补充说,该模型原生支持从1024×1024到2048×2048像素的多种分辨率,无需重新训练。
在昇腾硬件上训练GLM-Image要求智谱为华为芯片架构开发定制优化技术。该公司构建了一个训练套件,实现动态图多级流水线部署,使训练过程的不同阶段能够并发运行,减少瓶颈。
智谱还创建了与昇腾架构兼容的高性能融合算子,并采用多流并行来在分布式训练期间重叠通信和计算操作。这些优化旨在从运行方式与大多数AI框架默认针对的英伟达GPU不同的硬件中提取最大性能。
这一技术方法验证了竞争性AI模型可以在中国国产芯片生态系统上训练,尽管开发时间和工程投入的成本尚不明确。
智谱没有说明训练其模型使用了多少处理器或花费了多长时间,也没有说明相比同等英伟达系统的要求如何。
对于在中国运营的跨国企业而言,GLM-Image在国产硬件上的训练为中国AI基础设施能够支持最先进模型开发提供了证据。在中国有业务的公司可能需要评估是否要围绕华为昇腾等平台和MindSpore等框架制定策略。
该发布正值中国企业投资国产AI基础设施替代方案之际。出口管制是否会放缓还是加速并行AI生态系统的发展,仍然是政策辩论的主题。
Q&A
Q1:GLM-Image是什么?有什么特别之处?
A:GLM-Image是智谱AI公司开发的图像生成模型,特别之处在于它是首个完全在中国制造芯片上训练的最先进多模态模型。它采用混合架构,结合90亿参数自回归模型和70亿参数扩散解码器,擅长生成包含准确文本的图像内容。
Q2:GLM-Image的性能表现如何?
A:在CVTG-2K基准测试中,GLM-Image获得0.9116的单词准确度分数,在开源模型中排名第一。在LongText-Bench测试中,英文场景得分0.952,中文场景得分0.979,原生支持1024×1024到2048×2048像素多种分辨率。
Q3:普通用户如何使用GLM-Image?费用如何?
A:用户可以通过API使用GLM-Image,每生成一张图像收费0.1元人民币(约0.014美元)。智谱还在GitHub、Hugging Face和ModelScope社区发布了模型权重,支持独立部署,主要面向需要大规模生成营销材料、演示文稿等的企业用户。
好文章,需要你的鼓励
Replit与RevenueCat达成合作,将订阅变现工具直接集成至Replit平台。用户只需通过自然语言提示(如"添加订阅"),即可完成应用内购和订阅配置,无需离开平台。RevenueCat管理超8万款应用的订阅业务,每月处理约10亿美元交易。此次合作旨在让"氛围编程"用户在构建应用的同时即可实现商业变现,月收入未达2500美元前免费使用,超出后收取1%费用。
LiVER是由北京大学、北京邮电大学等机构联合提出的视频生成框架,核心创新是将物理渲染技术与AI视频生成结合,通过Blender引擎计算漫反射、粗糙GGX和光泽GGX三种光照图像构成"场景代理",引导视频扩散模型生成光影物理准确的视频。框架包含渲染器智能体、轻量化编码器适配器和三阶段训练策略,支持对光照、场景布局和摄像机轨迹的独立精确控制。配套构建的LiVERSet数据集含约11000段标注视频,实验显示该方法在视频质量和控制精度上均优于现有方法。
所有人都说AI需要护栏,但真正在构建它的人寥寥无几。SkipLabs创始人Julien Verlaguet深耕这一问题已逾一年,他发现市面上多数"护栏"不过是提示词包装。为此,他打造了专为后端服务设计的AI编程智能体Skipper,基于健全的TypeScript类型系统与响应式运行时,实现增量式代码生成与测试,内部基准测试通过率超90%。他认为,编程语言的"人类可读性时代"正走向终结,面向智能体的精确工具链才是未来。
这项由蒙特利尔学习算法研究所(Mila)与麦吉尔大学联合发布的研究(arXiv:2604.07776,2026年4月)提出了AGENT-AS-ANNOTATORS框架,通过模仿人类数据标注的三种角色分工,系统化生成高质量网页智能体训练轨迹。以Gemini 3 Pro为教师模型,仅用2322条精选轨迹对90亿参数的Qwen3.5-9B模型进行监督微调,在WebArena基准上达到41.5%成功率,超越GPT-4o和Claude 3.5 Sonnet,并在从未见过的企业平台WorkArena L1上提升18.2个百分点,验证了"数据质量远比数量重要"这一核心结论。