Nutanix云原生副总裁兼总经理Dan Ciruli表示,主权人工智能的快速部署需求以及在边缘运行推理的趋势,正在推动更多企业在本地部署Kubernetes。
在最近访问新加坡时,Ciruli在接受Computer Weekly采访时指出,虽然Kubernetes已经存在超过十年,但现代AI工作负载的需求正在改变容器编排平台的部署方式和位置。
虽然许多组织此前依赖托管Kubernetes服务,如Amazon Elastic Kubernetes Service或Google Kubernetes Engine,但保持敏感数据内部化的需求正在将Kubernetes工作负载推回数据中心。
Kubernetes是构建AI技术栈的必要组件
"Kubernetes是构建AI技术栈的必要组件,"Ciruli说道。"如果你使用AI即服务,或使用Gemini或OpenAI,你可能不太需要它,但我们看到对主权AI有很大需求。"
他指出,不断上涨的云成本已经将一些工作负载推回本地部署,但将AI应用于内部数据的愿望加速了这一转变。
"如果你想在本地进行AI处理,而你的数据就在那里,你就必须解决Kubernetes这个难题,"Ciruli补充道。"在边缘也是同样的情况;在边缘运行推理的需求意味着你必须将Kubernetes部署到那里。"
复杂性是主要挑战而非人才短缺
关于企业在本地运行Kubernetes以支持AI工作负载时面临的挑战,Ciruli表示主要障碍不是缺乏人才,而是从零开始构建生产就绪技术栈的复杂性。
"我在过去12年中看到的每项关于阻碍Kubernetes采用的调查都提到了技能差距,但这实际上意味着复杂性太高,"Ciruli说。"我不喜欢将责任归咎于人员。"
他解释说,Kubernetes很少是独立安装的,通常需要与多达30个开源项目集成,还需要图形处理单元认证和安全治理。
"必须有人弄清楚如何进行升级以及什么将被自动化。如果你使用云服务,这些问题都会被处理,但如果你想本地部署,你必须弄清楚什么是正确的Kubernetes。"
为了解决这个问题,Ciruli表示Nutanix提供了一个交钥匙的、AI就绪的Kubernetes平台,该平台提供操作系统和虚拟机监控程序的选择,与思科等硬件供应商合作建设所谓的AI工厂,并确保与英伟达的认证。
AI工作负载重新点燃裸机部署讨论
随着AI工作负载重塑基础设施,在裸机与虚拟机上运行容器的争论再次浮现。Ciruli认为,虽然虚拟机将继续作为通用应用程序的标准,但AI正在为裸机部署开辟细分市场。
"如果今天在虚拟机中运行,它可能会永远在虚拟机中运行,"Ciruli说,并指出大多数传统应用程序永远不会被重写以在容器中运行。然而,AI集群的处理方式有所不同。
"我们看到公司越来越多地运行裸机Kubernetes的地方是AI,"他解释道。"他们通常购买物理上独立的支持GPU的节点集群,GPU驱动程序在裸机上运行时也工作得更好。"
Ciruli补充说,虽然虚拟化的性能开销只有个位数百分比,但在GPU基础设施上大量投资的组织希望从硬件中榨取每一分性能,这导致他们为AI工作负载选择裸机服务器。
"我们甚至有客户在虚拟机中运行控制平面节点,而他们的工作节点在裸机GPU机器上运行的Kubernetes集群上。"
博通收购VMware引发市场重新评估
在博通收购VMware引发市场动荡的背景下,本地基础设施的转变正在发生。Ciruli指出,这促使企业重新评估其供应商关系,锁定效应是主要担忧。"我们仍然听到客户谈论这如何影响他们的计划,"他说。
虽然一些公司已经脱离VMware——Nutanix提供免费迁移工具——Ciruli警告说,迁移平台很少仅仅是技术挑战。
"最大的担忧是他们的人员,"他说。"你可能会与一个拥有数百名运维人员、在VMware方面有超过十年经验的大型企业客户交谈——帮助他们规划人员过渡方式是困难的部分。"
Ciruli表示,Nutanix解决锁定担忧的策略依赖于使用上游Kubernetes而不是分叉版本,确保跨不同Kubernetes发行版的可移植性,并通过云原生计算基金会的Kubernetes一致性程序认证。
"我们不想分叉并产生不符合标准的东西,"他说。"今天使用它的公司明天可以无需任何更改地部署到其他人的Kubernetes上。"
Q&A
Q1:为什么企业要将Kubernetes从云端搬回本地部署?
A:主要原因是主权AI和边缘AI的需求。企业需要将AI应用于内部敏感数据,保持数据在内部,同时在边缘运行推理,这推动了Kubernetes工作负载回到数据中心。此外,不断上涨的云成本也是推动因素之一。
Q2:本地部署Kubernetes面临的最大挑战是什么?
A:主要挑战不是人才短缺,而是复杂性太高。Kubernetes很少独立安装,通常需要与多达30个开源项目集成,还需要GPU认证和安全治理。企业必须解决升级、自动化等问题,而这些在云服务中都已经被处理好了。
Q3:AI工作负载为什么更适合在裸机上运行Kubernetes?
A:AI集群通常是物理上独立的支持GPU的节点,GPU驱动程序在裸机上工作更好。虽然虚拟化性能开销只有个位数百分比,但在GPU基础设施上大量投资的组织希望获得最佳性能,因此选择裸机服务器来运行AI工作负载。
好文章,需要你的鼓励
企业AI搜索公司Glean宣布年度经常性收入(ARR)达3亿美元,较15个月前的1亿美元增长三倍。尽管谷歌、微软、OpenAI等科技巨头纷纷入局企业AI搜索市场,Glean凭借"上下文图谱"技术深度理解企业业务需求,并帮助客户显著降低AI计算成本。该公司提供按用量计费和混合定价两种模式,客户涵盖Databricks、Reddit、Pinterest及三星等企业。Glean上轮融资后估值达72亿美元。
香港中文大学与MiniMax提出ClaimDiff-RL框架,将图像描述的AI训练从整体打分升级为逐条核查,有效解决了传统方式导致AI"少说保平安"的问题,同时在多项基准测试上超越Gemini-3-Pro-Preview。
杰夫·贝索斯旗下的蓝色起源公司在佛罗里达卡纳维拉尔角进行静态点火测试时,新格伦重型火箭发生爆炸。这是美国历史上最大规模的火箭爆炸之一,也是蓝色起源公司遭遇的最严重失败。所有人员安全,但该事故可能导致新格伦火箭项目长期暂停。此前该火箭已成功完成三次发射,并实现了助推器回收和重复使用。
ParaVT是一个由南洋理工等多校联合提出的并行视频工具调用框架,通过让AI同时分析多段视频并引入PARA-GRPO算法解决训练中的格式崩溃与工具跳过问题,在六项长视频理解测试中平均提升约7.9%。