随着大模型的流行,智算中心建设如火如荼。也因此,经常在公开报道中看到,某某智算中心PUE如何的低,然后非常绿色环保,等等。
本文探讨这样一个话题:智算中心仅关注PUE够吗?我们理解,应该是不够。
PUE = 总能耗/IT设备能耗,这里我们指出PUE指标存在的两个问题:
那么,为了更全面的评价智算中心的能力和价值,除了PUE,我们还应关注哪些指标呢?
PUE,Power Usage Effectiveness,电力使用效率,是评价算力中心能源效率的指标,也是算力中心最关键的一个指标。
PUE = 总能耗/IT设备能耗,其中算力中心总能耗包括了IT设备的能耗,以及制冷、配电等系统的能耗。PUE值必然大于1,越接近1表明非IT设备耗能越少,即能效水平越好。
如果把服务器硬件和网络设备当做一个确定的不再优化的设备(黑盒),那么关注PUE指标基本上足够代表智算中心的能效水平。但如果服务器和网络设备可以持续迭代优化,那么PUE就存在如下一些问题了:
CE,Computational Efficiency,算效比。定义为算力中心算力与IT及网络设备功耗的比值,即“计算相关设备的每瓦功耗所产生的算力”(单位:FLOPS/W)。
当然了,如果站在算力中心的角度,算力中心的CE,应表示为算力中心总算力及算力中心总能耗(既包括IT及网络设备的功耗,还包括制冷、配电,以及其他外围设备的功耗)的比值。
考虑了PUE,也考虑了CE,仍然不够完善,仍然存在如下一些问题。接下来我们详细展开来说。
计算节点的标称算力和实际可使用算力,差距可能很大,也即算力使用率的问题:
2.2.2 算力设备的利用率问题
算力设备的利用率问题,主要体现在:
即使同等的算力,不同类型的处理器,其算力价值千差万别:
从公司运营的角度看,关心的是投入产出比。但投入产出,是靠公司的产品做媒介,来形成关联的。智算中心的产品即为算力,需要通过算力,来考虑投入的成本以及带来的收益。与此同时,也以算力成本和算力收益作为优化的大方向、大目标。
GPU算力,相比AI处理器,具有更多的通用可编程能力,可以覆盖相对更多的场景以及算法,也因为能适配更多的业务和算法迭代,因此具有更长的生命周期。缺点在于,GPU计算相对专用算力,仍不够高效,并且目前市场上NVIDIA GPU的价格非常昂贵。
而AI处理器,通常具有更高的算力,以及更优的算效比。单卡价格也比NVIDIA GPU更便宜,如果平均到单位算力价格,则价格优势更加显著。但AI处理器比较专用,对场景的适配性要差一些,其实际的算力利用率较低,同时较难适配目前AI大模型算法的快速迭代,从而导致生命周期较短。
GPU算力和AI专用算力,是大模型时代最核心的两类算力。如何平衡和兼顾?既要GPU算力的灵活可编程性、更多的场景覆盖,以及更长的生命周期,还要专用AI算力的高效和低成本,是智算中心需要考虑的重要问题。
从计算架构上来说:
所有的计算,其实是围绕着CPU展开的,GPU、AI处理器、高性能网络、高性能存储等是作为外围组件的方式存在,统筹是在CPU。
目前,在智算中心,CPU算力通常处于完全被忽略的状态。虽然跟GPU、AI专用处理器相比,CPU的算力差距巨大。但实际上,CPU算力的使用和价值发挥,是决定智算中心算力价值提升的关键。
智算中心需要给客户提供算力服务,同时不仅仅是智算服务,还应是包含通算、超算、网络、存储、安全以及更上层的平台层服务(PaaS)以及场景和行业解决方案。而这些复杂而精细化的算力服务,需要通过运行于CPU的软件来整合。
也因此,从底层来看,就是需要增强对CPU的算力利用。
Q:上面的指标没有提到总量,为什么没有关注总量?
A:主要在于,总量是一个变量。关注了上述这些指标,并且得到优化,做到了行业领先,智算中心势必可以获得更多的收益,从而也有动力和能力去扩大规模。反之,如果这些指标落后,智算中心运营不善,最后只能减少规模。
Q:上面这些指标,就完善了吗?
A:从技术和业务发展的角度,这三个指标一起评价,基本上是完善了。但要站在更高的维度考虑,通常还要考虑两点:
上面两点,已经超出了本文的内容范畴,也超出了作者的能力范围,就不班门弄斧了。
1.https://baike.baidu.com/item/PUE/8606974,PUE,百度百科
2.https://info.support.huawei.com/info-finder/encyclopedia/zh/%E7%AE%97%E6%95%88%E6%AF%94.html,什么是算效比?
好文章,需要你的鼓励
这项由浙江大学与阿里巴巴通义实验室联合开展的研究,通过创新的半在线强化学习方法,显著提升了AI界面助手在多步骤任务中的表现。UI-S1-7B模型在多个基准测试中创造了7B参数规模的新纪录,为GUI自动化代理的发展开辟了新的技术路径。
阿里巴巴联合浙江大学开发的OmniThink框架让AI学会像人类一样慢思考写作。通过信息树和概念池的双重架构,系统能够动态检索信息、持续反思,突破了传统AI写作内容浅薄重复的局限。实验显示该方法在文章质量各维度均显著超越现有最强基线,知识密度提升明显,为长文本生成研究开辟了新方向。
新加坡国立大学研究人员开发出名为AiSee的可穿戴辅助设备,利用Meta的Llama模型帮助视障人士"看见"周围世界。该设备采用耳机形态,配备摄像头作为AI伴侣处理视觉信息。通过集成大语言模型,设备从简单物体识别升级为对话助手,用户可进行追问。设备运行代理AI框架,使用量化技术将Llama模型压缩至10-30亿参数在安卓设备上高效运行,支持离线处理敏感文档,保护用户隐私。
腾讯混元3D 2.0是一个革命性的3D生成系统,能够从单张图片生成高质量的带纹理3D模型。该系统包含形状生成模块Hunyuan3D-DiT和纹理合成模块Hunyuan3D-Paint,采用创新的重要性采样和多视角一致性技术,在多项评估指标上超越现有技术,并提供用户友好的制作平台。作为开源项目,它将大大降低3D内容创作门槛,推动3D技术的普及应用。