数十亿美元的交易和生成式AI的激增需求推动了一类新的服务提供商——"新云"进入聚光灯下。这些专用云围绕密集加速器集群和高性能网络构建,为大规模模型训练和高吞吐量推理提供裸机集群。
CoreWeave、Crusoe、Lambda Labs和Nebius等竞争者正在快速扩张,运营商拥有加密挖矿和高性能计算的背景。无论标签是"AI云"、"GPU即服务"还是"AI工厂",架构都集中在配备高带宽内存的GPU、节点内链路(如NVLink/NVSwitch)和集群级网络(如InfiniBand或支持RDMA的以太网)上,所有这些都由与互连本身同样重要的电力和冷却系统支撑。
然而,新云的快速崛起超过了重要设备和专业人才的供应,这些限制可能为下一阶段定下节奏。
新云为何颠覆传统云提供商
新云运动主要由AI工作负载的严苛性质驱动,这暴露了通用公共云提供商的弱点。
技术战略顾问、教师及《释放云的力量》共同作者David Linthicum表示:"新云是从零开始专门构建的。因为它们是为AI目的而构建的,所以能够处理工作并向用户收取更低的费用。"
根据Linthicum的说法,专业化的新云架构相比传统云服务商能够提供成本节约,后者"在基于GPU的服务器实例定价上过于昂贵"。
通过专注于效率和专业化,新云提供商整合基础设施,需要更少的处理器,并将大量节约传递给客户。Linthicum指出,定价可以低至传统云服务商收费的三分之一。通过Cloud GPUs等平台可以获得现货市场访问。
然而,Linthicum警告不要误认为所有机器学习工作负载都必须依赖GPU。他说,这个想法"基本上是个谬论"。仔细的工作负载分析可能更适合替代架构。
新云淘金热:数十亿美元交易和爆炸性增长
新云趋势得到了一系列数十亿美元交易的推动,通常涉及微软和谷歌等传统云服务商——具有讽刺意味的是,这些正是新云可能颠覆的公司。
根据IDC数据,2025年第二季度,全球AI支出同比增长166%至820亿美元,预计到2029年将达到7580亿美元。新云预计将对这一扩张做出重大贡献。例如,新云提供商Nebius在SEC文件中估计,到2030年,GPU即服务和AI云收入将以35%的复合年增长率超过2600亿美元。
新云挑战:供应链和电力需求
尽管快速增长,目前约有200家新云提供商面临GPU就绪基础设施配置挑战,包括内存、高速网络、冷却和电力设备。任何组件的延迟都可能破坏实施。
AI工作负载的电力需求尤其令人生畏。根据Uptime Institute Intelligence研究分析师Max Smolaks的说法,数据中心AI训练和推理的能耗预计将从2026年的131太瓦时增长到2030年的约250太瓦时。这一激增突显了迫在眉睫的供应链危机,特别是电力设备。
Smolaks解释说:"行业没有充分考虑开发和交付电力设备。用于建造超大型AI数据中心所需组件的供应链几乎已经耗尽,因为没人预料到要建造这么多。这对传统数据中心行业和新云都是问题。"
短缺包括大型变压器、大型发电机引擎和燃气轮机。
不断演进的商业模式:新云服务的未来
咨询公司AlixPartners预计,服务器、芯片、电力和冷却方面的技术复杂性上升和持续供应链问题。新云提供商需要不断完善其产品以保持竞争力并适应变化。
AlixPartners合伙人兼董事总经理Andrej Danis表示:"我们看到一个有趣的商业模式将会演进。这需要大量软件和对业务的完全理解。"
AlixPartners另一位合伙人兼董事总经理Sudeep Suman补充说:"现在被称为'GPU即服务'的工作负载将发生转变。这将转变为完全托管的云服务。"
然而,如果没有足够的技术专长,运营商面临真正的风险,因为新云在雇用熟练专业人员管理日益复杂的工作负载方面遇到困难。
传统云服务商的反击?
谷歌和微软等传统云服务商推动了生成式AI的早期商业采用,但外包了大量工作,使新云得以崛起。
GPU领导者英伟达支持新云初创企业以扩展其硬件和软件生态系统。传统云服务商将资本支出转移给新云,而英伟达利用新云来培育市场。
然而,一些专家认为新云目前持有的优势可能不会持久。随着AI成熟并变得更加高效,传统云服务商可能能够重新获得外包的工作负载。这种转变可能挑战新云的长期主导地位。
彭博智库高级分析师Woo Jim Ho指出,目前新云的经济性比传统云服务商更好。但当被问及传统云服务商是否最终可能重新夺回AI基础设施业务时,Ho说:"这是可能的,不要排除这种可能性。"
Q&A
Q1:什么是新云?它与传统云服务有什么不同?
A:新云是专门为AI工作负载构建的云服务提供商,如CoreWeave、Lambda Labs等。它们围绕GPU密集集群和高性能网络构建,与通用公共云不同,新云从零开始专为AI目的设计,能提供更高效率和更低成本的服务。
Q2:新云的成本优势有多大?
A:新云通过专业化和效率优化,能够提供比传统云服务商低得多的价格。根据专家分析,新云的定价可以低至传统云服务商收费的三分之一,主要因为它们整合基础设施,需要更少处理器,并将节约传递给客户。
Q3:新云面临哪些主要挑战?
A:新云面临严重的供应链挑战,包括GPU、内存、高速网络、冷却和电力设备短缺。特别是电力需求激增,AI能耗预计从2026年131太瓦时增长到2030年250太瓦时,而大型变压器、发电机等关键电力设备供应链几乎耗尽。
好文章,需要你的鼓励
Linux基金会宣布成立代理AI基金会,为AI智能体基础设施开发提供厂商中立的监督。尽管业界承认AI智能体存在安全问题,高德纳咨询公司警告许多企业项目可能因缺乏商业价值而被取消,但基金会仍致力于为AI公司提供中立平台。Anthropic、Block和OpenAI分别贡献了三个项目,包括模型上下文协议、开源AI智能体框架和机器可读文档标准。
快手科技研究团队提出了熵比截断机制,用于解决强化学习训练中AI容易"走偏"的问题。该方法通过监控AI学习前后思维活跃度变化,在关键时刻进行精准干预,既保证训练稳定性又维持探索能力。在数学推理任务中,此方法显著提升了模型性能并改善了训练稳定性,为AI训练领域提供了新的解决思路。
微软计划在未来四年内向印度投资175亿美元,这是该公司在亚洲的最大投资。投资将用于建设新数据中心、AI基础设施和技能培训项目。此举正值全球科技巨头加速在印度布局,该国庞大的互联网和智能手机用户群体使其成为关键战场。投资还包括在海德拉巴建设新数据中心区域,并与印度政府合作将AI能力整合到公共数字平台中。
EditThinker是北京航空航天大学与美团等机构联合研发的图像编辑AI框架,让AI在编辑图片时能够像人类一样进行反复思考和优化。该系统通过"批评-优化-重试"的循环机制,将传统的一次性编辑转变为迭代改进过程,在四个权威测试平台上显著提升了现有编辑模型的表现,特别是在需要复杂推理的编辑任务中效果突出。