突破人工智能发展瓶颈

随着人工智能的快速发展,企业在采用和部署AI时面临诸多挑战。从GPU短缺、网络延迟到能源需求激增,种种瓶颈正在影响AI性能并推高成本。本文探讨了这些挑战,并提出了优化AI基础设施的策略,包括重新设计网络、合理分配资源和管理能耗。企业必须突破这些瓶颈,才能在AI竞赛中保持领先地位,提升业务表现。

随着首席信息官们竞相采用和部署人工智能,他们最终都会面临一个不舒服的事实:他们的 IT 基础设施还没有为 AI 做好准备。从普遍存在的 GPU 短缺、容易出现延迟的网络到快速增长的能源需求,他们遇到的瓶颈正在削弱性能并推高成本。

Gartner 研究副总裁 Sid Nag 表示:"低效的 AI 框架会大大降低 AI 的价值。" Accenture 全球数据能力负责人 Teresa Tung 补充道:"高端 GPU 的稀缺性确实是个问题,但还有其他因素 —— 包括电力、散热以及数据中心设计和容量 —— 都会影响最终结果。"

关键在于:要求高且资源密集的 AI 工作负载需要 IT 领导者重新思考如何设计网络、分配资源和管理能耗。忽视这些挑战的企业可能会在 AI 军备竞赛中落后,并削弱业务表现。

突破点

最明显且被广泛报道的问题是用于推理和运行 AI 模型的高端 GPU 短缺。例如,备受追捧的 Nvidia Blackwell GPU (正式名称为 GB200 NVL-72) 已经几个月几乎无法购买,因为 Amazon、Google、Meta 和 Microsoft 等大公司都在抢购。即使企业能够获得这些设备,一台完整配置的服务器也要花费约 300 万美元。较便宜的 NVL36 服务器价格约为 180 万美元。

虽然这可能直接影响企业,但 GPU 短缺也影响到 AWS、Google 和 Microsoft 等主要云服务提供商。Nag 说,他们越来越多地限制资源和容量。对企业来说,影响是显而易见的。他指出:"缺乏构建 AI 模型所需的适当硬件基础设施,模型训练会变得缓慢且不可行。这还可能导致数据瓶颈,影响性能。"

然而,GPU 短缺只是整个问题的一部分。Tung 解释说,当组织寻求引入专门用于计算机视觉、机器人技术或聊天机器人等特定用途的 AI 工具时,他们发现需要针对 AI 优化的快速高效基础设施。

网络延迟可能特别具有挑战性。即使在处理 AI 查询时出现微小延迟也可能影响整个项目。GPU 集群需要高速互连才能以最大速度通信。根据专门从事 AI 优化基础设施的供应商 Ayar Labs 的商业运营副总裁 Terry Thorn 的说法,许多网络仍在依赖传统铜缆,这显著降低了数据传输速度。

另一个潜在问题是数据中心空间和能源消耗。AI 工作负载 —— 特别是在高密度 GPU 集群上运行的工作负载 —— 消耗大量电力。随着部署规模扩大,CIO 可能需要争相添加服务器、硬件和液冷等先进技术。Nag 说,低效的硬件、网络基础设施和 AI 模型会加剧这个问题。

更糟糕的是,升级电力和冷却基础设施既复杂又耗时。Nag 指出,这些升级可能需要一年或更长时间才能完成,从而造成额外的短期瓶颈。

明智扩展

由于技术影响到数据管理、计算资源和用户界面等多个领域,优化 AI 本质上很复杂。因此,CIO 必须根据用例、AI 模型和组织需求决定如何处理各种 AI 项目。这包括平衡本地 GPU 集群与不同芯片组合和基于云的 AI 服务。

Tung 说,组织必须考虑如何、何时以及在哪里使用云服务和专业 AI 提供商。如果在内部构建 GPU 集群既不可取也无法实现,那么找到合适的服务提供商就至关重要。"你必须了解供应商与 GPU 提供商的关系、他们提供什么类型的替代芯片,以及你究竟能获得什么,"她说。

在某些情况下,AWS、Google 或 Microsoft 可能通过特定产品和服务提供解决方案。然而,还存在一系列利基和专业 AI 服务公司,一些咨询公司 —— Accenture 和 Deloitte 就是其中两家 —— 与 Nvidia 和其他 GPU 供应商有直接合作关系。Tung 说:"在某些情况下,你可以通过这些定制模型和框架获取数据流。你可以依靠这些关系获得所需的 GPU。"

对于运行 GPU 集群的企业来说,最大化网络性能至关重要。随着工作负载的扩展,系统会遇到数据传输限制。关键瓶颈之一是铜缆。例如,Ayar Labs 用高速光互连替代这些互连,从而减少延迟、能耗和热量产生。这不仅能提高 GPU 利用率,还能提高模型处理效率,特别是对于大规模部署。

事实上,Ayar Labs 声称其延迟比传统互连低 10 倍,带宽高出 10 倍。功耗也降低了 4 到 8 倍。Thorn 表示,芯片不再是"等待数据而不是计算"。随着组织采用复杂的大语言模型,这个问题可能变得特别严重。他补充说:"增加管道容量可以提高利用率并降低资本支出。"

模型效率和蒸馏过程是另一个重要部分。例如,通过专门为笔记本电脑或智能手机调整模型,通常可以使用不同的 GPU 和 CPU 组合。Tung 说,这可能会产生运行更快、更好、更便宜的模型。

能源策略

解决 AI 的能源需求也很重要。整体的能源战略可以帮助避免短期性能瓶颈和长期制约。Nag 说:"如果能源消耗还不是问题,它也将成为许多公司的问题。"没有足够的供应,电力可能成为成功的障碍。它还可能破坏可持续性并增加漂绿指控。他建议 CIO 从广泛和整体的角度看待 AI,包括找出减少对 GPU 依赖的方法。

制定明确的政策和 AI 使用治理框架可以最大限度地降低非技术业务用户误用工具或无意中造成瓶颈的风险。当这些用户转向 AWS、Google 和 Microsoft 等超大规模云服务提供商时,风险会更大。Nag 指出:"没有一些指导和方向,就像走进糖果店却不知道该选什么。"

最终,企业 AI 框架必须连接战略和 IT 基础设施。Tung 解释说,目标是"确保你的公司在由 AI 驱动的世界中掌控自己的命运"。

来源:InformationWeek

0赞

好文章,需要你的鼓励

2025

03/17

16:16

分享

点赞

邮件订阅