当OpenAI、谷歌和其他科技巨头追求更大模型规模,每月都声称创下新的基准分数记录时,企业面临着一个更安静但更实际的挑战:推理。
运行训练好的AI模型来分析新数据并生成答案的过程在理论上听起来简单,但在规模化应用时,这正是大多数公司遇到困难的地方。GPU最初是为图形渲染设计的,在原始计算方面表现出色,但在数百万实时查询的重压下却表现不佳。这导致了成本飙升、延迟问题和巨大的能源需求。
IBM一直将自己定位为企业计算的架构师,正在填补这一空白。IBM没有追求更大的模型,而是将自己定位为AI推动者,成为将智能转化为执行的连接层。其最新的生态系统押注专注于现代AI不可见但关键的基础:推理基础设施。
通过与Anthropic和加利福尼亚初创公司Groq的新合作伙伴关系,后者以其语言处理单元(LPU)而闻名,IBM旨在重新构想企业AI在生产环境中的运作方式。
"数据无处不在,多个云、边缘、本地部署,企业AI必须能够在混合环境中工作。我们有一个分层模型策略,平衡IBM自主创新与战略合作伙伴关系以加速成果,"IBM高级副总裁兼首席商务官Rob Thomas告诉记者。"我们利用各种模型,像Granite这样的小语言模型、来自Mistral和Meta等合作伙伴的大语言模型,以及通过与Anthropic合作获得的前沿模型,为每个用例使用最佳模型。"
通过将Groq的推理硬件集成到IBM的watsonx Orchestrate中,该公司声称企业可以运行智能体AI系统,速度比传统的基于GPU的设置快5倍,成本效率更高。
"AI仍然停留在'拨号上网'时代——模型可以给出准确答案,但要给出高质量的研究级答案可能意味着等待长达10分钟,而大语言模型或智能体则在思考,"Groq首席执行官兼创始人Jonathan Ross说。"更快的处理还会推高使用量,从而增加计算成本,因此速度必须与成本效率相结合。"
Ross解释说,传统GPU在并行、批处理导向的工作负载(如模型训练)方面表现出色。但当涉及到低延迟、多步推理,即智能体AI所需的动态执行时,GPU就显得力不从心。LPU使用软件控制的流水线架构,以确定性流程移动数据,消除GPU中常见的瓶颈,提供实时AI性能。
"智能体AI通过将任务分解为一系列明确步骤并按顺序执行每个步骤来改善大语言模型输出。这种'分步思考'的方法产生更好的结果,尽管它也成倍增加了所需的计算量,推高了延迟和成本,"他告诉记者。"GPU是训练或创建AI模型的正确工具。LPU是推理或运行AI模型的正确工具。"
IBM的AI赋能技术栈内部构造
随着企业从AI实验走向生产,IBM通过其watsonx平台统一了现代AI栈的三个基本层:智能、推理和治理。
在智能层,IBM与Anthropic的合作将Claude模型引入栈中,提供透明的推理能力,这对需要可解释系统而非不透明黑盒的受监管行业来说是关键优势。在此之下,Groq的确定性LPU取代了耗电的GPU,在规模上提供低延迟推理,跟上现实世界企业工作负载的步伐。锚定系统的是IBM的治理基础,由Red Hat OpenShift提供支持,确保每次AI交互在混合和本地环境中都保持可审计、合规和安全。
"IBM的策略目前看起来是有效的,"Forrester高级云分析师Dario Maisto告诉记者。"从长远来看,它是否会促进可持续增长是另一个问题。好的方面是,这种工作方式让IBM在利用新的AI解决方案和合作伙伴关系方面具有更多的机会性灵活性。"
IBM表示,其策略已经在有大量推理需求的客户中找到了支持。例如,一家大型健康保险提供商使用watsonx Orchestrate同时处理数千个患者和提供商查询。通过在Groq的LPU上运行AI智能体,系统现在能够以几乎零延迟提供实时答案,有助于提高患者满意度并加速理赔审批。
"我们的角色是为企业提供运营AI所需的完整技术栈。我们的Watsonx产品组合加速核心工作流程的投资回报率。我们的Granite模型对于需要控制和定制的企业特定任务仍然至关重要。来自Anthropic等合作伙伴的前沿模型则推动了可能性的边界,"Thomas补充道。"三年后,我相信IBM将成为使AI在整个企业技术资产中发挥作用的赋能层。"
IBM的模块化策略对比超大规模厂商主导地位
下一场AI竞赛可能取决于谁能最智能地部署AI,而IBM正在绘制一条不同的路线。虽然微软和谷歌已经围绕其基础模型和云构建了紧密集成的生态系统,但IBM的策略在设计上是模块化和混合的,避免了生态系统锁定。
微软严重依赖OpenAI的前沿模型,将GPT副驾驶嵌入到Microsoft 365、Azure、GitHub和Windows中。据报道,该公司现在持有OpenAI约27%的股份,在最近的资本重组中估值约为1350亿美元。这一股份帮助推动了强大的反馈循环,增强了其模型并确保了企业忠诚度,推动了截至2025年第三季度1230亿美元的年化云收入运行率。
谷歌追求垂直整合,结合专有的Gemini和开源Gemma模型为Vertex AI和搜索、安卓等平台提供支持。其TPU和数据控制实现了AI栈的端到端所有权,贡献了大约610亿美元的云收入。
与此同时,IBM专注于编排而非所有权。其watsonx平台和小语言模型(SLM)支持混合和本地环境,而Red Hat OpenShift支持跨云或安全的隔离系统部署。拥有大约2%云份额的IBM正在加倍押注下一代推理和可靠性。
"每个超大规模厂商都想拥有入口,企业想要自由,跨云、主权区域和边缘站点,"Rafay首席执行官兼联合创始人Haseeb Budhani说。"获胜者是让这种体验在任何地方都感觉相同的平台:无论是公有云、本地还是新云。这是一个很高的标准。如果IBM能达到,很好。如果不能,多云仍然是幻灯片,而不是系统。"
Budhani补充说,在AI基础设施中,经济学而非硬件将有助于赢得竞赛。"GPU不会自己销售;体验才会,"他说。当编排改善利用率并实现可预测支出,特别是跨主权和区域云时,采购决策会发生转变。
在被认为在AI军备竞赛中过于谨慎多年后,IBM现在旨在通过掌握使AI实用的基础设施来开辟出一个领导地位。
"实验很容易。生产很难。公司在试图从AI获得投资回报率时遇到三个关键挑战:速度、成本和可靠性。这就是IBM的完整技术栈,包括我们与Groq的新合作伙伴关系,改变游戏规则的地方,"Thomas说。"我们给客户选择权。"
Q&A
Q1:IBM在AI推理方面有什么创新?
A:IBM通过与Groq和Anthropic的合作,开发了基于LPU(语言处理单元)的推理基础设施。LPU使用软件控制的流水线架构,以确定性流程处理数据,比传统GPU在AI推理方面快5倍且更具成本效益,特别适合智能体AI的多步推理需求。
Q2:IBM的watsonx平台有什么特色?
A:watsonx平台统一了AI的三个基本层:智能层(集成Claude等模型)、推理层(采用Groq的LPU技术)和治理层(基于Red Hat OpenShift)。这种模块化混合设计避免了生态系统锁定,支持跨云、本地和边缘环境部署,确保AI交互的可审计性和合规性。
Q3:IBM的AI策略与微软谷歌有什么不同?
A:IBM专注于编排而非所有权,采用模块化策略避免生态锁定。微软深度依赖OpenAI并紧密集成到其产品生态,谷歌追求端到端垂直整合。IBM则通过合作伙伴关系提供灵活选择,让企业在不同云环境和本地部署中自由使用AI服务。
好文章,需要你的鼓励
CPU架构讨论常聚焦于不同指令集的竞争,但实际上在单一系统中使用多种CPU架构已成常态。x86、Arm和RISC-V各有优劣,AI技术的兴起更推动了对性能功耗比的极致需求。当前x86仍主导PC和服务器市场,Arm凭借庞大生态系统在移动和嵌入式领域领先,RISC-V作为开源架构展现巨大潜力。未来芯片设计将更多采用异构计算,多种架构协同工作成为趋势。
KAIST AI团队通过深入分析视频生成AI的内部机制,发现了负责交互理解的关键层,并开发出MATRIX框架来专门优化这些层。该技术通过语义定位对齐和语义传播对齐两个组件,显著提升了AI对"谁对谁做了什么"的理解能力,在交互准确性上提升约30%,为AI视频生成的实用化应用奠定了重要基础。
Vast Data与云计算公司CoreWeave签署了价值11.7亿美元的多年期软件许可协议,这标志着AI基础设施存储市场的重要转折点。该协议涵盖Vast Data的通用存储层及高级数据平台服务,将帮助CoreWeave提供更全面的AI服务。业内专家认为,随着AI集群规模不断扩大,存储系统在AI基础设施中的占比可能从目前的1.9%提升至3-5%,未来五年全球AI存储市场规模将达到900亿至2000亿美元。
乔治亚理工学院和微软研究团队提出了NorMuon优化器,通过结合Muon的正交化技术与神经元级自适应学习率,在1.1B参数模型上实现了21.74%的训练效率提升。该方法同时保持了Muon的内存优势,相比Adam节省约50%内存使用量,并开发了高效的FSDP2分布式实现,为大规模AI模型训练提供了实用的优化方案。