突破人工智能发展瓶颈

随着人工智能的快速发展，企业在采用和部署AI时面临诸多挑战。从GPU短缺、网络延迟到能源需求激增，种种瓶颈正在影响AI性能并推高成本。本文探讨了这些挑战，并提出了优化AI基础设施的策略，包括重新设计网络、合理分配资源和管理能耗。企业必须突破这些瓶颈，才能在AI竞赛中保持领先地位，提升业务表现。

随着首席信息官们竞相采用和部署人工智能，他们最终都会面临一个不舒服的事实：他们的 IT 基础设施还没有为 AI 做好准备。从普遍存在的 GPU 短缺、容易出现延迟的网络到快速增长的能源需求，他们遇到的瓶颈正在削弱性能并推高成本。

Gartner 研究副总裁 Sid Nag 表示："低效的 AI 框架会大大降低 AI 的价值。" Accenture 全球数据能力负责人 Teresa Tung 补充道："高端 GPU 的稀缺性确实是个问题，但还有其他因素 —— 包括电力、散热以及数据中心设计和容量 —— 都会影响最终结果。"

关键在于：要求高且资源密集的 AI 工作负载需要 IT 领导者重新思考如何设计网络、分配资源和管理能耗。忽视这些挑战的企业可能会在 AI 军备竞赛中落后，并削弱业务表现。

突破点

最明显且被广泛报道的问题是用于推理和运行 AI 模型的高端 GPU 短缺。例如，备受追捧的 Nvidia Blackwell GPU (正式名称为 GB200 NVL-72) 已经几个月几乎无法购买，因为 Amazon、Google、Meta 和 Microsoft 等大公司都在抢购。即使企业能够获得这些设备，一台完整配置的服务器也要花费约 300 万美元。较便宜的 NVL36 服务器价格约为 180 万美元。

虽然这可能直接影响企业，但 GPU 短缺也影响到 AWS、Google 和 Microsoft 等主要云服务提供商。Nag 说，他们越来越多地限制资源和容量。对企业来说，影响是显而易见的。他指出："缺乏构建 AI 模型所需的适当硬件基础设施，模型训练会变得缓慢且不可行。这还可能导致数据瓶颈，影响性能。"

然而，GPU 短缺只是整个问题的一部分。Tung 解释说，当组织寻求引入专门用于计算机视觉、机器人技术或聊天机器人等特定用途的 AI 工具时，他们发现需要针对 AI 优化的快速高效基础设施。

网络延迟可能特别具有挑战性。即使在处理 AI 查询时出现微小延迟也可能影响整个项目。GPU 集群需要高速互连才能以最大速度通信。根据专门从事 AI 优化基础设施的供应商 Ayar Labs 的商业运营副总裁 Terry Thorn 的说法，许多网络仍在依赖传统铜缆，这显著降低了数据传输速度。

另一个潜在问题是数据中心空间和能源消耗。AI 工作负载 —— 特别是在高密度 GPU 集群上运行的工作负载 —— 消耗大量电力。随着部署规模扩大，CIO 可能需要争相添加服务器、硬件和液冷等先进技术。Nag 说，低效的硬件、网络基础设施和 AI 模型会加剧这个问题。

更糟糕的是，升级电力和冷却基础设施既复杂又耗时。Nag 指出，这些升级可能需要一年或更长时间才能完成，从而造成额外的短期瓶颈。

明智扩展

由于技术影响到数据管理、计算资源和用户界面等多个领域，优化 AI 本质上很复杂。因此，CIO 必须根据用例、AI 模型和组织需求决定如何处理各种 AI 项目。这包括平衡本地 GPU 集群与不同芯片组合和基于云的 AI 服务。

Tung 说，组织必须考虑如何、何时以及在哪里使用云服务和专业 AI 提供商。如果在内部构建 GPU 集群既不可取也无法实现，那么找到合适的服务提供商就至关重要。"你必须了解供应商与 GPU 提供商的关系、他们提供什么类型的替代芯片，以及你究竟能获得什么，"她说。

在某些情况下，AWS、Google 或 Microsoft 可能通过特定产品和服务提供解决方案。然而，还存在一系列利基和专业 AI 服务公司，一些咨询公司 —— Accenture 和 Deloitte 就是其中两家 —— 与 Nvidia 和其他 GPU 供应商有直接合作关系。Tung 说："在某些情况下，你可以通过这些定制模型和框架获取数据流。你可以依靠这些关系获得所需的 GPU。"

对于运行 GPU 集群的企业来说，最大化网络性能至关重要。随着工作负载的扩展，系统会遇到数据传输限制。关键瓶颈之一是铜缆。例如，Ayar Labs 用高速光互连替代这些互连，从而减少延迟、能耗和热量产生。这不仅能提高 GPU 利用率，还能提高模型处理效率，特别是对于大规模部署。

事实上，Ayar Labs 声称其延迟比传统互连低 10 倍，带宽高出 10 倍。功耗也降低了 4 到 8 倍。Thorn 表示，芯片不再是"等待数据而不是计算"。随着组织采用复杂的大语言模型，这个问题可能变得特别严重。他补充说："增加管道容量可以提高利用率并降低资本支出。"

模型效率和蒸馏过程是另一个重要部分。例如，通过专门为笔记本电脑或智能手机调整模型，通常可以使用不同的 GPU 和 CPU 组合。Tung 说，这可能会产生运行更快、更好、更便宜的模型。

能源策略

解决 AI 的能源需求也很重要。整体的能源战略可以帮助避免短期性能瓶颈和长期制约。Nag 说："如果能源消耗还不是问题，它也将成为许多公司的问题。"没有足够的供应，电力可能成为成功的障碍。它还可能破坏可持续性并增加漂绿指控。他建议 CIO 从广泛和整体的角度看待 AI，包括找出减少对 GPU 依赖的方法。

制定明确的政策和 AI 使用治理框架可以最大限度地降低非技术业务用户误用工具或无意中造成瓶颈的风险。当这些用户转向 AWS、Google 和 Microsoft 等超大规模云服务提供商时，风险会更大。Nag 指出："没有一些指导和方向，就像走进糖果店却不知道该选什么。"

最终，企业 AI 框架必须连接战略和 IT 基础设施。Tung 解释说，目标是"确保你的公司在由 AI 驱动的世界中掌控自己的命运"。

来源：InformationWeek

0赞

好文章，需要你的鼓励

突破人工智能发展瓶颈

来源：InformationWeek

2025

03/17

16:16

分享

点赞

WordPress实验性AI开发工具Telex已投入实际应用

英国NCSC与BT联手阻止10亿次网络威胁攻击

威廉姆斯车队与Atlassian合作：打破传统赞助模式

美光科技放弃消费级存储品牌Crucial追逐AI商机

亚马逊希望通过免费赠送AI编程工具Kiro来抢占市场

华为计算通用部件全家桶

ALM如何推动现代生产发展

剪映要变天了？字节Vidi2自动根据素材剪辑视频

HPE以虚拟化、安全与AI创新塑造混合云未来

Myriota推出HyperPulse 5G非地面网络IoT连接服务

HPE与AMD扩大合作推进开放式机架级AI基础设施

爱立信与LotusFlare合作加速网络API技术普及

应对 AI 驱动的关键基础设施攻击:韧性是关键

Red Hat 简化 AI 应用训练和推理的数据访问流程

Groq 和 PlayAI 让 AI 语音更接近人类 — 这是他们的方法

OpenAI 爆火的吉卜力风格引发 AI 版权担忧

ETSI 发布首个后量子加密标准

ChatGPT 整合 GPT-4o 推出图像生成功能

让数据为 AI 做好准备的三个步骤

Imandra 新推出的 AI 编程助手 CodeLogician 利用"推理能力"确保代码准确性

微软为研究和数据分析推出"深度推理"版 Copilot AI

Amazon 推出 AI 智能购物助手，洞悉你的喜好

如果您非常迫切的想了解IT领域最新产品与技术信息，那么订阅至顶网技术邮件将是您的最佳途径之一

电子竞技瞬息万变，Team Liquid的“数据+AI”制胜秘籍

中国移动呼和浩特数据中心：只有高效存力先行，AI才能跑出全力

从“支撑工具”到“智能中枢”，AI原生ERP进化

阿里要用AI将云计算重做一遍

关注官方公众号

关注官方微博

关注官方喜马拉雅

友情链接

业界热点: