d-Matrix与Gimlet Labs合作提升智能体AI推理性能

AI基础设施初创公司d-Matrix与应用AI企业Gimlet Labs合作,将专用推理硬件引入AI云环境,旨在提升实时代理工作负载的性能和能效。Gimlet计划将d-Matrix Corsair加速器集成到Gimlet Cloud中,与传统GPU协同工作。在这种混合架构中,GPU处理推理的计算密集型阶段,而内存和延迟敏感操作则路由至Corsair。

AI基础设施初创公司d-Matrix与应用AI公司Gimlet Labs达成合作,将专用推理硬件引入AI云环境,旨在提升实时智能体工作负载的性能和能效。

在此合作框架下,Gimlet计划将d-Matrix Corsair加速器集成到Gimlet Cloud中,与传统GPU并行运行。在这种混合架构中,GPU处理计算密集型的推理阶段,而内存和延迟敏感的操作则由Corsair处理。两家公司表示,与纯GPU部署相比,这种分工可实现延迟和每瓦吞吐量高达10倍的改进。

"如果能从根本上改变人们与AI的交互方式,他们会更加投入其中,"Gimlet Labs联合创始人兼CEO Zain Asgar在新闻发布会上表示。"我们希望实现与AI系统的实时交互,这首先需要为最重要的工作负载设计硬件和软件。"

面向实时AI的异构基础设施

这一合作反映了AI基础设施向多芯片发展的趋势——将GPU与推理加速器及其他专用芯片结合,以优化性能和效率。

"推理从来不是一刀切的问题。异构化是前进的道路,"d-Matrix CEO Sid Sheth说道。"从第一天起,d-Matrix就专注于推理,随着功耗限制制约AI发展速度,AI服务提供商必须拥有适合特定任务的正确工具。"

"GPU非常适合计算密集型工作负载,但像Token生成这样的内存密集型阶段需要不同的解决方案,"d-Matrix产品副总裁Sri Ganesan补充道。"Corsair突破了内存墙,实现极低延迟,同时GPU继续处理繁重的计算任务。这是并肩作战、协同增效的故事。"

Moor Insights & Strategy分析师Matt Kimball告诉Data Center Knowledge,专用硬件与软件编排的结合是关键。"d-Matrix的架构围绕推理效率而非训练规模设计,这与AI应用进入生产阶段的市场趋势相符,"Kimball说。"但仅有硬件还不够——Gimlet等平台试图简化部署并与现有工作流程无缝集成。这正是其吸引力所在。"

Kimball补充说,真正的价值在于Gimlet提供的抽象层,允许工作负载在异构芯片上运行而无需重写代码。"AI工作负载正变得越来越异构,但大多数基础设施仍围绕单一加速器类型优化,"Kimball说。"如果Gimlet能让开发者轻松地在多个芯片上部署,这可能释放真正的效率提升——对任何企业都是双赢。成功的平台是那些开发者可以在不考虑硬件的情况下使用的平台。"

专为内存密集型AI任务设计

Corsair的架构强调高内存带宽和低延迟,非常适合Token生成和其他在智能体AI及实时应用中常见的内存密集型操作。

与许多高端加速器不同,Corsair作为标准PCIe卡配备风冷散热,可以在现有GPU服务器内部署,无需专用机箱或特殊管路。d-Matrix的Jetstream网卡通过标准以太网在Corsair和GPU之间传输数据,简化了大规模集成并提高了利用率。

"这关乎在对现有基础设施最小干预的情况下大规模部署,"Ganesan说。"目标是最大化硬件利用率,在功耗约束内获得尽可能高的性能。"

瞄准AI推理的下一阶段

联合解决方案计划于2026年下半年通过Gimlet Cloud向特定客户提供。

Sheth表示,初期目标包括构建高能力模型的前沿AI实验室。"用例包括交互式编程和自主智能体,在这些场景中速度至关重要——无论是对人类用户还是机器驱动的工作流程,"Sheth说。

随着智能体AI系统规模扩大,运营商越来越多地寻求专用推理芯片来充分利用有限的数据中心电力并最大化计算效率。"功耗限制是现实存在的,"Ganesan说。"在不牺牲性能的情况下优化效率,对于AI的云端和企业级大规模部署至关重要。"

DCK分析:混合芯片方法的重要性

d-Matrix和Gimlet的合作展示了AI基础设施策略的转变。随着AI模型变得更加复杂——融合多步骤智能体、多模态输入和实时交互——同质GPU集群在效率方面面临收益递减。

通过将GPU与内存优化的推理加速器以及动态编排层配对,Gimlet可以在不增加总功耗的情况下实现更高的吞吐量和更低的延迟。分析师Matt Kimball强调,采用不仅取决于硬件,还取决于软件栈和使异构性对开发者透明的抽象层。

对运营商而言,这种方法提供了一条实现更高每瓦Token-per-second性能、更好的终端用户交互性以及在现有功耗预算内扩展前沿AI工作负载的路径。

这一公告还突显了AI基础设施的更广泛趋势:异构系统可能主导AI部署的下一阶段,成功将同样取决于软件编排和原始硬件性能。

Q&A

Q1:d-Matrix Corsair加速器有什么特别之处?

A:Corsair是专门为内存密集型AI任务设计的推理加速器,强调高内存带宽和低延迟。它作为标准PCIe卡配备风冷散热,可以直接部署在现有GPU服务器中,无需特殊机箱。在处理Token生成等内存敏感操作时,能突破内存墙实现极低延迟。

Q2:为什么要将GPU和Corsair结合使用而不是只用GPU?

A:这是因为不同的AI推理阶段有不同的需求。GPU非常适合处理计算密集型任务,但对于内存密集型操作如Token生成,专用的推理加速器更有效。这种混合架构可以实现延迟和每瓦吞吐量高达10倍的改进,在功耗限制下获得更好的性能。

Q3:这种混合架构何时能普及应用?

A:d-Matrix和Gimlet Labs的联合解决方案计划于2026年下半年通过Gimlet Cloud向特定客户提供。初期目标是前沿AI实验室,用于交互式编程和自主智能体等需要高速处理的应用场景。随着AI模型复杂度增加,这种异构系统可能主导AI部署的下一阶段。

来源:DataCenterKnowledge

0赞

好文章,需要你的鼓励

2026

03/13

09:50

分享

点赞

邮件订阅