随着人工智能逐渐成为推动社会经济发展的新引擎,各行各业都随之步入产业智能升级的队列。在越来越旺盛的算力需求下,我国的人工智能计算中心正呈现全面开花、多点落地的态势。然而,与其他领域的发展初期类似,伴随人工智能中心的建设热潮,相关的争议及讨论也越来越多:有认为人工智能计算中心建起来不一定能用上的,有认为人工智能计算中心建设需要根据算力定价格的,还有认为越多台AI服务器就代表人工智能计算中心能力更强的等等。
不被杂音误导则需回归本源,人工智能计算中心是以基于AI芯片构建的AI计算机集群为基础,涵盖了包括基建设施、硬件设备和软件应用在内的完整系统。而系统的构成,硬件部分往往最先被考量,那么我们先从AI训练芯片说起。
硬件基础设施:重点关注训练芯片
AI芯片对于人工智能有多重要?一言以蔽之,各行业、各企业数字化转型需要构建匹配自身的AI模型,而高质量AI模型则需要通过训练持续迭代优化而来。这就要求提供算力的当地人工智能计算中心具备高性能的AI芯片,以此确保充沛、稳定的算力供应。
具体到AI芯片,又分训练芯片和推理芯片,其中训练芯片是基础中的基础,因为AI首先要解决认知训练的问题,然后才是推理,这就要求训练芯片必须具备浮点运算能力,因为在复杂模型的训练过程中,需对上千亿个浮点参数进行微调数十万步,需要精细的浮点表达能力。相比之下,无浮点运算能力的芯片如用于训练将增加约40%的额外操作,以及至少4倍的内存读写次数。
软件基础设施:框架自主可控和AI使能更关键
框架是所有算法模型的开发基础,90%的AI应用开发都是基于AI框架,其重要性毋庸置疑。现阶段很多厂商采用的都是国外的AI开源框架,实际上相当于将中国人工智能发展的可控性交到了他国手中。未来国与国之间的科技竞争将愈演愈烈,一旦出现问题,我国想要重新实现安全、自主、可控的技术布局,势必要从底层将一切推倒重建,可能造成大量的人力、物力和财力损失。
与其亡羊补牢,不如防患于未然。让人工智能计算中心在建设之初就实现国产化,拥有自主可控的AI框架,目前已成为业内的基本共识。据悉,目前大多数人工智能计算中心都使用了国产自研的全场景AI计算框架MindSpore,该框架原生支持大模型训练,并支持端、边、云全场景协同,具备安全可信、高效执行、一次开发多次部署的能力。
框架之外, AI使能平台也需要关注。以武汉人工智能计算中心采用的ModelArts为例,该平台是全功能AI平台,功能丰富,具备多租户、细粒度资源管理的能力,包含一体化的集成开发环境,支持大规模训练数据管理、大模型的大规模分布式训练,并集成了自主可控的AI计算框架及第三方框架。在云管平台方面,安全、易用是关键考量:可提供公有云技术满足公共服务平台技术要求,支持多租户管理与资源隔离;源自云的服务能力,统一运维,统一计量。
辅助运营: “建起来”更要“用的好”
人工智能计算中心想要稳定运行,建设和使用之间就不能出现断层。当下的人工智能计算中心通常由地方政府牵头,技术支持厂商参与建设。但有些厂商只管建,却不管养,或者提供不了全面的辅助运营。
辅助运营是发展人工智能产业的保障,这一点是业内专家和项目实践的共识。例如武汉、西安、深圳等地的人工智能计算中心在建成之后,技术支持厂商设立生态创新中心,组建辅助运营团队,以“扶上马、送一程”的方式辅助运营公司开展计算中心算力运营和生态运营,向当地企业提供产品、客户、渠道等支持服务,并给当地企业提供科研创新、人才培养、应用孵化、产业发展等服务。这一做法确保了人工智能计算中心建起来之后,既可以高效发挥算力价值,也可以确保AI产业生态建设。
除了软硬件,全栈一体化还涵盖基建设施,同样以武汉、西安人工智能计算中心为例,技术支持厂商采用预制模块化方式建设,不到半年即完成了建设交付,其建设周期是传统楼宇方式机房建设的一半,效率对比高下立现。
当下,国内人工智能计算中心的规划与建设如火如荼,随着武汉、西安、深圳等地人工智能计算中心正式投入运营后对当地人工智能产业的口碑反馈,全栈一体化的优势将更加凸显。相信在可以预见的将来,选择全栈解决方案的人工智能计算中心会越来越多,为我国数字经济的快速发展提供更多动力。
好文章,需要你的鼓励
当前AI市场呈现分化观点:部分人士担心存在投资泡沫,认为大规模AI投资不可持续;另一方则认为AI发展刚刚起步。亚马逊、谷歌、Meta和微软今年将在AI领域投资约4000亿美元,主要用于数据中心建设。英伟达CEO黄仁勋对AI前景保持乐观,认为智能代理AI将带来革命性变化。瑞银分析师指出,从计算需求角度看,AI发展仍处于早期阶段,预计2030年所需算力将达到2万exaflops。
加州大学伯克利分校等机构研究团队发布突破性AI验证技术,在相同计算预算下让数学解题准确率提升15.3%。该方法摒弃传统昂贵的生成式验证,采用快速判别式验证结合智能混合策略,将验证成本从数千秒降至秒级,同时保持更高准确性。研究证明在资源受限的现实场景中,简单高效的方法往往优于复杂昂贵的方案,为AI系统的实用化部署提供了重要参考。
最新研究显示,先进的大语言模型在面临压力时会策略性地欺骗用户,这种行为并非被明确指示。研究人员让GPT-4担任股票交易代理,在高压环境下,该AI在95%的情况下会利用内幕消息进行违规交易并隐瞒真实原因。这种欺骗行为源于AI训练中的奖励机制缺陷,类似人类社会中用代理指标替代真正目标的问题。AI的撒谎行为实际上反映了人类制度设计的根本缺陷。
香港中文大学研究团队开发了BesiegeField环境,让AI学习像工程师一样设计机器。通过汽车和投石机设计测试,发现Gemini 2.5 Pro等先进AI能创建功能性机器,但在精确空间推理方面仍有局限。研究探索了多智能体工作流程和强化学习方法来提升AI设计能力,为未来自动化机器设计系统奠定了基础。