人工智能计算中心是建设新一代人工智能产业集群的关键基础设施。近年来,我国多个中心城市加速推进人工智能产业布局,以期在新一轮科技革命的机遇之中抢占发展先机,而搭建集约化、一体式人工智能计算中心也就成为了各地新基建蓝图中的重大工程。
众所周知,算力、算法、数据是人工智能的三驾马车。如果没有算力的支撑,人工智能将难以走向应用普及。因此,在人工智能计算中心建设热潮中,将数据和算法协调起来的AI芯片便成为最受关注的模块。
当前,各行各业对适配AI模型的训练需求呈爆发式增长,而一个高质量的AI模型是通过训练和持续迭代优化而来的。当大模型、多模态算法模型训练逐渐成为主流,人工智能算力需求每3.5个月就翻一番,企业在AI研发中进行模型训练的算力成本居高不下。因此,能否为企业和科研机构提供可持续、高适配、高弹性的训练算力成为衡量各地人工智能计算中心“含金量”的核心指标。如果没有技术足够成熟的训练芯片来提供训练算力保障,就难以保障平台产出算法模型的效率,那么以亿为成本而建设的人工智能计算中心也就成了“雷声大雨点小”的空壳工程。
训练芯片和推理芯片之别
在实际的人工智能计算中心硬件布局中,芯片主要适配于推理和训练两大场景。训练芯片和推理芯片之间的逻辑差别可以理解为:训练芯片像老师,一遍一遍教一个完全不认字的小孩从零开始识字,一遍不会就再教一遍,直到教会为止;而推理芯片则是已经学会识字的小孩,阅读不同的书本时,可以识别出书本中的字。
换句话说,训练是从现有的数据中学习新的能力,而推理则是将已经训练好的能力运用到实际场景中。离开了训练的推理,就相当于空中楼阁。所以,相较于推理芯片,训练芯片是人工智能不断进化的基础,也是众多AI芯片厂商需要着力攻克的研发高地。
训练芯片有哪些特点
那么,与推理芯片相比,训练芯片在技术上具有哪些特点?
首先,训练芯片具备浮点运算能力。复杂模型的训练过程中,需通过精细的浮点表达能力对上千亿个浮点参数进行微调数十万步。无浮点运算能力的芯片如用于训练将增加约40%的额外操作,以及至少4倍的内存读写次数。
其次,训练芯片具有专用AI加速单元,并具有高能效比的特点。当前有个别厂商采用2016年国外品牌GPU架构,缺少AI加速单元,导致其AI训练能效比差,且能耗剧增。与之相比,配置矩阵加速单元的训练芯片可使AI训练效率提升10倍。
为AI产业提供充沛算力,需要在AI处理器硬件上有扎实的技术积累。据了解,目前许多人工智能计算中心使用的由昇腾 910 AI训练处理器,原生具备训练能力,集群性能业界领先。目前,该集群可以在28秒完成基于Resnet-50模型训练(持续保持业界第一),并且性能还将持续提升。同样,基于昇腾AI基础软硬件平台的“鹏城云脑II”荣获AIPerf(世界人工智能算力)第一名,并再次刷新IO500(高性能计算存储系统性能排行榜-全系统输入输出和10节点系统)两项世界冠军。
训练芯片市场前景广阔
随着自动驾驶、生物信息识别、机器人、自动巡检等人工智能终端产品和应用越来越普遍化,人工智能产业集群的价值不可估量。在从理论走向应用的产业化过程中,训练芯片作为算力平台的“心脏”,其市场也持续蓬勃发展。
研究机构赛迪顾问发布的报告显示,从2019年到2021年,中国云端训练AI芯片市场累计增长了约127%。2021年,云端训练芯片市场规模将达到139.3亿元。据预测,从2019年到2024年,云端训练芯片的年复合增长率或达到32%。
以全国第一个人工智能计算中心——武汉人工智能计算中心为例,其一期建设规模为100P FLOPS AI算力,今年5月31投运当天算力负载便达到了90%,投运之后持续满负荷运行。如今,武汉人工智能计算中心仍在持续扩容中。9月初正式上线的西安未来人工智能计算中心一期规划300P FLOPS FP16(每秒30亿亿次半精度浮点计算)计算能力。作为西北地区首个大规模人工智能算力集群,其算力平台承载力达到了当下我国同类平台中的领先的水平。
市场的高速增长预示着,当人工智能发展到深水区阶段,各行各业对AI训练算力的需求将长期保持几何级增长。而训练芯片作为训练算力的引擎,也是人工智能模型训练的“基础中的基础”,也将作为人工智能计算中心的灵魂得到更广泛的重视。相信,在我国极为丰富的AI应用生态优势引领下,无论是训练芯片还是推理芯片,都将得到更为长足的快速发展。
好文章,需要你的鼓励
亚马逊云服务部门与OpenAI签署了一项价值380亿美元的七年协议,为ChatGPT制造商提供数十万块英伟达图形处理单元。这标志着OpenAI从研究实验室向AI行业巨头的转型,该公司已承诺投入1.4万亿美元用于基础设施建设。对于在AI时代竞争中处于劣势的亚马逊而言,这项协议证明了其构建和运营大规模数据中心网络的能力。
Meta FAIR团队发布的CWM是首个将"世界模型"概念引入代码生成的32亿参数开源模型。与传统只学习静态代码的AI不同,CWM通过学习Python执行轨迹和Docker环境交互,真正理解代码运行过程。在SWE-bench等重要测试中表现卓越,为AI编程助手的发展开辟了新方向。
当今最大的AI数据中心耗电量相当于一座小城市。美国数据中心已占全国总电力消费的4%,预计到2028年将升至12%。电力供应已成为数据中心发展的主要制约因素。核能以其清洁、全天候供电特性成为数据中心运营商的新选择。核能项目供应链复杂,需要创新的采购模式、标准化设计、早期参与和数字化工具来确保按时交付。
卡内基梅隆大学研究团队发现AI训练中的"繁荣-崩溃"现象,揭示陈旧数据蕴含丰富信息但被传统方法错误屏蔽。他们提出M2PO方法,通过改进数据筛选策略,使模型即使用256步前的陈旧数据也能达到最新数据的训练效果,准确率最高提升11.2%,为大规模异步AI训练开辟新途径。