应对AI大模型算力荒，为啥不是云计算而是超算？原创

作者：任新勃

以ChatGPT为代表的AI大模型，凭借其强大的学习和生成能力，极大的推动了人工智能在自然语言处理、机器翻译和智能对话等领域的突破。

以ChatGPT为代表的AI大模型，凭借其强大的学习和生成能力，极大的推动了人工智能在自然语言处理、机器翻译和智能对话等领域的突破。随之而来的是国内相关企业纷纷布局AI大模型，在短时间内呈现了“百模大战”发展态势。

我们也看到，作为支撑AI大模型的三驾马车：数据、算法和算力之间的发展呈现了不平衡，其中最明显的是支撑大模型训练与推理的算力面临短缺，导致GPU算力卡供不应求，价格飙升等问题。

7月28日，在大美新疆，由CCF中国计算机学会主办，CCF人工智能与模式识别专委、新疆大学、北京超级云计算中心承办的 “见疆见昆仑·AI大模型算力前沿论坛”上，进行了一场产、学、研共同参与的圆桌访谈，通过精彩的发言和观点的碰撞，针对AI大模型面临 “算力荒”，人工智能产业的上中下游机构，如何应对其挑战。专家们一直认为通用计算+专用计算组合提供强大算力，是解决“算力荒”的关键。

算力荒下的大模型新挑战

虽然AI大模型在各个领域展现出巨大的潜力，并已经在各个行业落地，为了给用户提供更全面、准确的理解和推理能力，来处理更复杂的任务。

但是随着通用大模型和行业大模型不断增加参数数量、层数和训练数据量，并将多模态数据如图像、文本和语音进行融合。大模型对算力需求形成了新的挑战。

首先，大模型训练作为庞大并且复杂的系统工程，需要庞大的算力资源，来进行训练和推理，这对硬件设备和能源消耗提出了巨大的挑战。

在算力荒的当下，算力获取一个主要挑战就是获取成本，如何在好用的情况下还能实现成本可控是一个挑战。深圳大学陈小军研究员表示一方面大模型应用场景有待深挖，同时对话、视觉、文本等多模态融合技术有待完善。同时大模型训练成本太高成为制约大模型应用的一大挑战。

其次，新疆大学钱育蓉教授认为，高校每年投资大量的资金采购算力，如何确保投入产出比，如何最大效率发挥算力的价值是大模型算力的一个挑战。此外，烟台大学王莹洁教授认为大模型还需要解决数据存储和隐私保护等问题，以应对数据集规模和数据安全的挑战。

最后，北京邮电大学石川教授认为当前我国大模型还面临国产基础平台软件算法库稀缺瓶颈，以图数据为例，当前国内大模型对图数据不能很好的支撑，很多时候需要自己编写基础的一些算法库。

应对算力荒的新方法

当前每次大模型训练所需要的算力非常高，以ChatGPT为例，OpenAI公开数据推测，如果每秒1000万亿次的计算，每次模型训练也需要3640天的计算能力。基于大模型训练对于算力资源的需求量。从算力架构的角度来看，目前来讲，单机已经没有办法完成大规模训练的诉求。

因此通用算力+专用算力，将成人工智能算力基础设施建设的关键，并成为AI大模型的发展的重要支撑。具体而言就是通过分布式和并行计算技术，将大模型的训练和推理任务分解成多个子任务，以提高计算效率和速度。

“通用算力，结合上千张卡的算力进行万亿级、千亿级基础模型训练；再通过专用算力进行更合理的共享、微调，进行更多处理，从而可以减少重复训练、重复迭代，可以降低大模型部署和使用的成本。” 中国计算机协会杰出会员理事，陕西省计算机学会常务理事兼常务副秘书长苗启广教授分享到。烟台大学教授王莹洁也认为，大模型背后的算力是是很砸钱的一件事，特别是面临算力荒的局面下，提供高性价比的算力成为高校大模型普及的关键。

基于通用算力+专用算力的硬件基础在结合AI大模型算法和模型优化，通过开发更高效的算法和模型结构，来提升计算资源的效率，从而提高模型的性能和泛化能力。

针对钱育蓉教授关于算力投入产出比的问题，CCF中国计算机学会常务理事陈健博士分享了通过提供弹性的算力网络服务来提升算力效率。一方面，当企业自身的算力资源不足时，可以从超级云中心调度更多算力资源，同时当企业算力资源有富余，还可以出租一部分给到算力网络。另一方面，打造像用电一样利用算力的计费模式。“算力网络就是聚集海量的超算中心、智算中心的资源在一起的，而且计费模式就像用电一样，通过预存来实现算力网络的调用。”

应对大模型，为啥是超算而不是云计算？

大模型训练，单一任务使用大量GPU卡运行数月，这是典型的超算应用特点，运行稳定和高性能是核心需求。从应对计算挑战的方法可以看出，超算架构比云计算架构更适合大模型训练，超算架构不使用虚拟化技术，通过高速互联网络把GPU服务器紧耦合在一起，以并行计算技术实现单一大模型训练应用的高性能计算(HPC/High Performance Computing)。而云计算架构主要面对海量并发任务，实现高通量计算(HTC/High Throughput Computing)，并不适合处理单一大规模计算任务。

“结合大数据、人工智能和超算三种技术共同的合作演变，实现了今天大模型的蓬勃发展。”陈健博士这样分享到。“跟传统意义上的云计算相比较，大模型训练是典型的超算场景，对算力提出了非常高的要求。超算相比云计算更加贴合大模型训练场景，服务器之间的计算带宽配比更大，是目前主流云计算环境中的计算网络带宽的数十倍，数据传输效率要求更高。”

“相对于云计算，超算云的算力利用率更高。目前已知的普通云厂商CPU利用率很低，我们国内用户自己的计算系统全年整机平均利用率达到30%就不错了，而北京超级云计算中心自己的计算资源整机利用率要高50%以上，算力成本大幅下降。以中心提供的大模型算力为例，我们会给用户提供基于超算架构的算力资源，把优质的加速卡资源部署在集群环境里面，来给用户提升对应的算力服务。” 北京超级云计算中心CTO甄亚楠谈到。

特别是北京超级云计算中心基于12年的超算积淀、具备海量的算力资源、7*24小时专家服务保障、遍布全国的算力调度网络、丰富的AI大模型研发团队案例经验，引领了大模型算力从可用到好用到降本。

写在最后：AI大模型的能力大家有目共睹，“百模大战”最终大浪淘沙剩下几家？还不可预测。但是算力作为AI大模型的基础支撑，需求越来越大是有目共睹的，提供高性价比的算力资源成为算力资源提供商发力的方向，而通用算力结合专用算力的超算模式，为各个行业的大模型算力“荒“提供了一个有效的解决方案，来支撑AI大模型更好的服务社会。

来源：至顶网人工智能频道

0赞

好文章，需要你的鼓励

应对AI大模型算力荒，为啥不是云计算而是超算？ 原创

来源：至顶网人工智能频道

2023

08/04

13:08

分享

点赞

智算前沿 焕芯未来—MINISFORUM 与 AMD 联合举办AI 双旗舰产品体验会

锐龙9高端游戏本突破百万销量 京东“超级供应链”成AMD 增长强引擎

西门子发布数据中心解决方案5.0，创新型直流配电产品首次亮相中国市场

研究人员利用300万天Apple Watch数据训练疾病检测AI

CoreWeave CEO 为 AI 循环交易辩护称其为"协作共赢"

IT领导者不可忽视的生成式AI价值实现五大趋势

AI安全监管亟待加强，头部科技公司评分不及格

TPU挑战GPU霸主地位，谷歌专用芯片崛起

2026年AI预测：自动化发展与工作未来的十大趋势

亚马逊计划2030年前在印度投资350亿美元聚焦AI与物流

Adobe将Photoshop、Acrobat和Adobe Express集成至ChatGPT

Google DeepMind与Apptronik展示家用人形机器人执行真实世界任务

为什么昇腾是DeepSeek的“最优解”？

从黄仁勋CES全程高能演讲，看英伟达庞大AI棋局：物理AI、AI PC、通用机器人

OpenAI甩王炸！发布新模型o3，一夜再次改变世界！

首个国产算力POC平台开放，为国产算力加速发展铺路搭桥

AI芯片架构众多，谁会主宰算力芯片？

解码异构 加速普惠 联想聚“三力” 拓宽“好用”边界

破除 AI“算网”瓶颈 加速企业创新转型

2024中国AI Agent研究综述

维谛技术 X 世纪互联 | 凝聚生态合力，共赢AI未来

全球智慧 · 全链驱动 | 维谛技术 Vertiv 360AI智算研讨会勾勒AI基础设施全景图

如果您非常迫切的想了解IT领域最新产品与技术信息，那么订阅至顶网技术邮件将是您的最佳途径之一

电子竞技瞬息万变，Team Liquid的“数据+AI”制胜秘籍

中国移动呼和浩特数据中心：只有高效存力先行，AI才能跑出全力

从“支撑工具”到“智能中枢”，AI原生ERP进化

阿里要用AI将云计算重做一遍

关注官方公众号

关注官方微博

关注官方喜马拉雅

友情链接

业界热点:

应对AI大模型算力荒，为啥不是云计算而是超算？原创

智算前沿焕芯未来—MINISFORUM 与 AMD 联合举办AI 双旗舰产品体验会

锐龙9高端游戏本突破百万销量京东“超级供应链”成AMD 增长强引擎

解码异构加速普惠联想聚“三力” 拓宽“好用”边界

破除 AI“算网”瓶颈加速企业创新转型