全栈才是未来，“攒机型”人工智能计算中心还能走多远？

人工智能计算中心是以基于AI芯片构建的AI计算机集群为基础，涵盖了包括基建设施、硬件设备和软件应用在内的完整系统。

随着人工智能逐渐成为推动社会经济发展的新引擎，各行各业都随之步入产业智能升级的队列。在越来越旺盛的算力需求下，我国的人工智能计算中心正呈现全面开花、多点落地的态势。然而，与其他领域的发展初期类似，伴随人工智能中心的建设热潮，相关的争议及讨论也越来越多：有认为人工智能计算中心建起来不一定能用上的，有认为人工智能计算中心建设需要根据算力定价格的，还有认为越多台AI服务器就代表人工智能计算中心能力更强的等等。

不被杂音误导则需回归本源，人工智能计算中心是以基于AI芯片构建的AI计算机集群为基础，涵盖了包括基建设施、硬件设备和软件应用在内的完整系统。而系统的构成，硬件部分往往最先被考量，那么我们先从AI训练芯片说起。

硬件基础设施：重点关注训练芯片

AI芯片对于人工智能有多重要？一言以蔽之，各行业、各企业数字化转型需要构建匹配自身的AI模型，而高质量AI模型则需要通过训练持续迭代优化而来。这就要求提供算力的当地人工智能计算中心具备高性能的AI芯片，以此确保充沛、稳定的算力供应。

具体到AI芯片，又分训练芯片和推理芯片，其中训练芯片是基础中的基础，因为AI首先要解决认知训练的问题，然后才是推理，这就要求训练芯片必须具备浮点运算能力，因为在复杂模型的训练过程中，需对上千亿个浮点参数进行微调数十万步，需要精细的浮点表达能力。相比之下，无浮点运算能力的芯片如用于训练将增加约40%的额外操作，以及至少4倍的内存读写次数。

软件基础设施：框架自主可控和AI使能更关键

框架是所有算法模型的开发基础，90%的AI应用开发都是基于AI框架，其重要性毋庸置疑。现阶段很多厂商采用的都是国外的AI开源框架，实际上相当于将中国人工智能发展的可控性交到了他国手中。未来国与国之间的科技竞争将愈演愈烈，一旦出现问题，我国想要重新实现安全、自主、可控的技术布局，势必要从底层将一切推倒重建，可能造成大量的人力、物力和财力损失。

与其亡羊补牢，不如防患于未然。让人工智能计算中心在建设之初就实现国产化，拥有自主可控的AI框架，目前已成为业内的基本共识。据悉，目前大多数人工智能计算中心都使用了国产自研的全场景AI计算框架MindSpore，该框架原生支持大模型训练，并支持端、边、云全场景协同，具备安全可信、高效执行、一次开发多次部署的能力。

框架之外， AI使能平台也需要关注。以武汉人工智能计算中心采用的ModelArts为例，该平台是全功能AI平台，功能丰富，具备多租户、细粒度资源管理的能力，包含一体化的集成开发环境，支持大规模训练数据管理、大模型的大规模分布式训练，并集成了自主可控的AI计算框架及第三方框架。在云管平台方面，安全、易用是关键考量：可提供公有云技术满足公共服务平台技术要求，支持多租户管理与资源隔离；源自云的服务能力，统一运维，统一计量。

辅助运营： “建起来”更要“用的好”

人工智能计算中心想要稳定运行，建设和使用之间就不能出现断层。当下的人工智能计算中心通常由地方政府牵头，技术支持厂商参与建设。但有些厂商只管建，却不管养，或者提供不了全面的辅助运营。

辅助运营是发展人工智能产业的保障，这一点是业内专家和项目实践的共识。例如武汉、西安、深圳等地的人工智能计算中心在建成之后，技术支持厂商设立生态创新中心，组建辅助运营团队，以“扶上马、送一程”的方式辅助运营公司开展计算中心算力运营和生态运营，向当地企业提供产品、客户、渠道等支持服务，并给当地企业提供科研创新、人才培养、应用孵化、产业发展等服务。这一做法确保了人工智能计算中心建起来之后，既可以高效发挥算力价值，也可以确保AI产业生态建设。

除了软硬件，全栈一体化还涵盖基建设施，同样以武汉、西安人工智能计算中心为例，技术支持厂商采用预制模块化方式建设，不到半年即完成了建设交付，其建设周期是传统楼宇方式机房建设的一半，效率对比高下立现。

当下，国内人工智能计算中心的规划与建设如火如荼，随着武汉、西安、深圳等地人工智能计算中心正式投入运营后对当地人工智能产业的口碑反馈，全栈一体化的优势将更加凸显。相信在可以预见的将来，选择全栈解决方案的人工智能计算中心会越来越多，为我国数字经济的快速发展提供更多动力。

来源：业界供稿

人工智能计算中心

0赞

好文章，需要你的鼓励

全栈才是未来，“攒机型”人工智能计算中心还能走多远？

来源：业界供稿

2021

09/24

14:26

分享

点赞

Meta发布AI翻译功能，支持脸书和Instagram内容实时转换

HPE发布Nvidia Blackwell驱动的AI服务器，抢占AI市场需求

ISACA推出AI安全管理高级认证项目

谷歌推出智能体SOC系统提升安全事件响应速度

Lumen升级400GB数据中心连接基础设施助力AI发展

AI和流媒体推动，2030年面临"网络危机"

Pine64停产Pro手机转向RISC-V业务

日立Vantara将VSP One块存储扩展至Azure云平台

Finchetto光学数据包交换机：光无法存储的技术挑战与突破

Python开发者调查显示增长强劲，但基金会资金面临困境

多站点IT基础设施升级指南：告别VMware的替代方案

戴尔集成Elasticsearch与英伟达Blackwell GPU升级AI数据平台

行业洞察 | 2023年中国人工智能计算中心分布概览

中国—东盟人工智能计算中心和适配中心正式发布，助力产业智能化升级

“数字引擎”赢未来——河南抢抓算力时代，抢先布局算力新基建

昇腾AI助力山东首个人工智能计算中心落户青岛崂山

无锡智能计算中心签约建设，将打造全国领先智算高地

全栈才是未来，“攒机型”人工智能计算中心还能走多远？

人工智能计算中心绝不是“政绩工程”，而是产业未来

有了它，人工智能计算中心才有灵魂

人工智能计算中心建起来，用起来才是关键

人工智能计算中心建设“攻坚战”，深化产业运营是关键

如果您非常迫切的想了解IT领域最新产品与技术信息，那么订阅至顶网技术邮件将是您的最佳途径之一

关于AI Agent落地，李开复强调了两件事：“价值交付”和“一把手工程”

AWS re:Inforce：费城这天不只拼进球，还拼生成式AI安全

在欧洲之门马德里，我们再次见证了SAP激活企业增长的“飞轮”

IEEE专家委员胡凝：消解AI幻觉“阴影”，洞见“超级个体”价值锚点

关注官方公众号

关注官方微博

关注官方喜马拉雅

友情链接

业界热点: