随着首席信息官们竞相采用和部署人工智能,他们最终都会面临一个不舒服的事实:他们的 IT 基础设施还没有为 AI 做好准备。从普遍存在的 GPU 短缺、容易出现延迟的网络到快速增长的能源需求,他们遇到的瓶颈正在削弱性能并推高成本。
Gartner 研究副总裁 Sid Nag 表示:"低效的 AI 框架会大大降低 AI 的价值。" Accenture 全球数据能力负责人 Teresa Tung 补充道:"高端 GPU 的稀缺性确实是个问题,但还有其他因素 —— 包括电力、散热以及数据中心设计和容量 —— 都会影响最终结果。"
关键在于:要求高且资源密集的 AI 工作负载需要 IT 领导者重新思考如何设计网络、分配资源和管理能耗。忽视这些挑战的企业可能会在 AI 军备竞赛中落后,并削弱业务表现。
突破点
最明显且被广泛报道的问题是用于推理和运行 AI 模型的高端 GPU 短缺。例如,备受追捧的 Nvidia Blackwell GPU (正式名称为 GB200 NVL-72) 已经几个月几乎无法购买,因为 Amazon、Google、Meta 和 Microsoft 等大公司都在抢购。即使企业能够获得这些设备,一台完整配置的服务器也要花费约 300 万美元。较便宜的 NVL36 服务器价格约为 180 万美元。
虽然这可能直接影响企业,但 GPU 短缺也影响到 AWS、Google 和 Microsoft 等主要云服务提供商。Nag 说,他们越来越多地限制资源和容量。对企业来说,影响是显而易见的。他指出:"缺乏构建 AI 模型所需的适当硬件基础设施,模型训练会变得缓慢且不可行。这还可能导致数据瓶颈,影响性能。"
然而,GPU 短缺只是整个问题的一部分。Tung 解释说,当组织寻求引入专门用于计算机视觉、机器人技术或聊天机器人等特定用途的 AI 工具时,他们发现需要针对 AI 优化的快速高效基础设施。
网络延迟可能特别具有挑战性。即使在处理 AI 查询时出现微小延迟也可能影响整个项目。GPU 集群需要高速互连才能以最大速度通信。根据专门从事 AI 优化基础设施的供应商 Ayar Labs 的商业运营副总裁 Terry Thorn 的说法,许多网络仍在依赖传统铜缆,这显著降低了数据传输速度。
另一个潜在问题是数据中心空间和能源消耗。AI 工作负载 —— 特别是在高密度 GPU 集群上运行的工作负载 —— 消耗大量电力。随着部署规模扩大,CIO 可能需要争相添加服务器、硬件和液冷等先进技术。Nag 说,低效的硬件、网络基础设施和 AI 模型会加剧这个问题。
更糟糕的是,升级电力和冷却基础设施既复杂又耗时。Nag 指出,这些升级可能需要一年或更长时间才能完成,从而造成额外的短期瓶颈。
明智扩展
由于技术影响到数据管理、计算资源和用户界面等多个领域,优化 AI 本质上很复杂。因此,CIO 必须根据用例、AI 模型和组织需求决定如何处理各种 AI 项目。这包括平衡本地 GPU 集群与不同芯片组合和基于云的 AI 服务。
Tung 说,组织必须考虑如何、何时以及在哪里使用云服务和专业 AI 提供商。如果在内部构建 GPU 集群既不可取也无法实现,那么找到合适的服务提供商就至关重要。"你必须了解供应商与 GPU 提供商的关系、他们提供什么类型的替代芯片,以及你究竟能获得什么,"她说。
在某些情况下,AWS、Google 或 Microsoft 可能通过特定产品和服务提供解决方案。然而,还存在一系列利基和专业 AI 服务公司,一些咨询公司 —— Accenture 和 Deloitte 就是其中两家 —— 与 Nvidia 和其他 GPU 供应商有直接合作关系。Tung 说:"在某些情况下,你可以通过这些定制模型和框架获取数据流。你可以依靠这些关系获得所需的 GPU。"
对于运行 GPU 集群的企业来说,最大化网络性能至关重要。随着工作负载的扩展,系统会遇到数据传输限制。关键瓶颈之一是铜缆。例如,Ayar Labs 用高速光互连替代这些互连,从而减少延迟、能耗和热量产生。这不仅能提高 GPU 利用率,还能提高模型处理效率,特别是对于大规模部署。
事实上,Ayar Labs 声称其延迟比传统互连低 10 倍,带宽高出 10 倍。功耗也降低了 4 到 8 倍。Thorn 表示,芯片不再是"等待数据而不是计算"。随着组织采用复杂的大语言模型,这个问题可能变得特别严重。他补充说:"增加管道容量可以提高利用率并降低资本支出。"
模型效率和蒸馏过程是另一个重要部分。例如,通过专门为笔记本电脑或智能手机调整模型,通常可以使用不同的 GPU 和 CPU 组合。Tung 说,这可能会产生运行更快、更好、更便宜的模型。
能源策略
解决 AI 的能源需求也很重要。整体的能源战略可以帮助避免短期性能瓶颈和长期制约。Nag 说:"如果能源消耗还不是问题,它也将成为许多公司的问题。"没有足够的供应,电力可能成为成功的障碍。它还可能破坏可持续性并增加漂绿指控。他建议 CIO 从广泛和整体的角度看待 AI,包括找出减少对 GPU 依赖的方法。
制定明确的政策和 AI 使用治理框架可以最大限度地降低非技术业务用户误用工具或无意中造成瓶颈的风险。当这些用户转向 AWS、Google 和 Microsoft 等超大规模云服务提供商时,风险会更大。Nag 指出:"没有一些指导和方向,就像走进糖果店却不知道该选什么。"
最终,企业 AI 框架必须连接战略和 IT 基础设施。Tung 解释说,目标是"确保你的公司在由 AI 驱动的世界中掌控自己的命运"。
好文章,需要你的鼓励
南洋理工大学研究团队开发了WorldMem框架,首次让AI拥有真正的长期记忆能力,解决了虚拟世界模拟中的一致性问题。该系统通过记忆银行存储历史场景,并使用智能检索机制,让AI能准确重现之前的场景和事件,即使间隔很长时间。实验显示在Minecraft和真实场景中都表现出色,为游戏、自动驾驶、机器人等领域带来广阔应用前景。
AWS通过升级SageMaker机器学习平台来扩展市场地位,新增观测能力、连接式编码环境和GPU集群性能管理功能。面对谷歌和微软的激烈竞争,AWS专注于为企业提供AI基础设施支撑。SageMaker新功能包括深入洞察模型性能下降原因、为开发者提供更多计算资源控制权,以及支持本地IDE连接部署。这些更新主要源于客户需求,旨在解决AI模型开发中的实际问题。
MTS AI研究团队提出RewardRanker系统,通过重排序模型和迭代自训练显著提升AI代码生成质量。该方法让13.4B参数模型超越33B大模型,在多种编程语言上表现优异,甚至在C++上超越GPT-4。通过引入困难负样本和PPO优化,系统能从多个代码候选中选出最优方案,为AI编程助手的实用化奠定基础。