AI基础设施初创公司d-Matrix与应用AI公司Gimlet Labs达成合作,将专用推理硬件引入AI云环境,旨在提升实时智能体工作负载的性能和能效。
在此合作框架下,Gimlet计划将d-Matrix Corsair加速器集成到Gimlet Cloud中,与传统GPU并行运行。在这种混合架构中,GPU处理计算密集型的推理阶段,而内存和延迟敏感的操作则由Corsair处理。两家公司表示,与纯GPU部署相比,这种分工可实现延迟和每瓦吞吐量高达10倍的改进。
"如果能从根本上改变人们与AI的交互方式,他们会更加投入其中,"Gimlet Labs联合创始人兼CEO Zain Asgar在新闻发布会上表示。"我们希望实现与AI系统的实时交互,这首先需要为最重要的工作负载设计硬件和软件。"
面向实时AI的异构基础设施
这一合作反映了AI基础设施向多芯片发展的趋势——将GPU与推理加速器及其他专用芯片结合,以优化性能和效率。
"推理从来不是一刀切的问题。异构化是前进的道路,"d-Matrix CEO Sid Sheth说道。"从第一天起,d-Matrix就专注于推理,随着功耗限制制约AI发展速度,AI服务提供商必须拥有适合特定任务的正确工具。"
"GPU非常适合计算密集型工作负载,但像Token生成这样的内存密集型阶段需要不同的解决方案,"d-Matrix产品副总裁Sri Ganesan补充道。"Corsair突破了内存墙,实现极低延迟,同时GPU继续处理繁重的计算任务。这是并肩作战、协同增效的故事。"
Moor Insights & Strategy分析师Matt Kimball告诉Data Center Knowledge,专用硬件与软件编排的结合是关键。"d-Matrix的架构围绕推理效率而非训练规模设计,这与AI应用进入生产阶段的市场趋势相符,"Kimball说。"但仅有硬件还不够——Gimlet等平台试图简化部署并与现有工作流程无缝集成。这正是其吸引力所在。"
Kimball补充说,真正的价值在于Gimlet提供的抽象层,允许工作负载在异构芯片上运行而无需重写代码。"AI工作负载正变得越来越异构,但大多数基础设施仍围绕单一加速器类型优化,"Kimball说。"如果Gimlet能让开发者轻松地在多个芯片上部署,这可能释放真正的效率提升——对任何企业都是双赢。成功的平台是那些开发者可以在不考虑硬件的情况下使用的平台。"
专为内存密集型AI任务设计
Corsair的架构强调高内存带宽和低延迟,非常适合Token生成和其他在智能体AI及实时应用中常见的内存密集型操作。
与许多高端加速器不同,Corsair作为标准PCIe卡配备风冷散热,可以在现有GPU服务器内部署,无需专用机箱或特殊管路。d-Matrix的Jetstream网卡通过标准以太网在Corsair和GPU之间传输数据,简化了大规模集成并提高了利用率。
"这关乎在对现有基础设施最小干预的情况下大规模部署,"Ganesan说。"目标是最大化硬件利用率,在功耗约束内获得尽可能高的性能。"
瞄准AI推理的下一阶段
联合解决方案计划于2026年下半年通过Gimlet Cloud向特定客户提供。
Sheth表示,初期目标包括构建高能力模型的前沿AI实验室。"用例包括交互式编程和自主智能体,在这些场景中速度至关重要——无论是对人类用户还是机器驱动的工作流程,"Sheth说。
随着智能体AI系统规模扩大,运营商越来越多地寻求专用推理芯片来充分利用有限的数据中心电力并最大化计算效率。"功耗限制是现实存在的,"Ganesan说。"在不牺牲性能的情况下优化效率,对于AI的云端和企业级大规模部署至关重要。"
DCK分析:混合芯片方法的重要性
d-Matrix和Gimlet的合作展示了AI基础设施策略的转变。随着AI模型变得更加复杂——融合多步骤智能体、多模态输入和实时交互——同质GPU集群在效率方面面临收益递减。
通过将GPU与内存优化的推理加速器以及动态编排层配对,Gimlet可以在不增加总功耗的情况下实现更高的吞吐量和更低的延迟。分析师Matt Kimball强调,采用不仅取决于硬件,还取决于软件栈和使异构性对开发者透明的抽象层。
对运营商而言,这种方法提供了一条实现更高每瓦Token-per-second性能、更好的终端用户交互性以及在现有功耗预算内扩展前沿AI工作负载的路径。
这一公告还突显了AI基础设施的更广泛趋势:异构系统可能主导AI部署的下一阶段,成功将同样取决于软件编排和原始硬件性能。
Q&A
Q1:d-Matrix Corsair加速器有什么特别之处?
A:Corsair是专门为内存密集型AI任务设计的推理加速器,强调高内存带宽和低延迟。它作为标准PCIe卡配备风冷散热,可以直接部署在现有GPU服务器中,无需特殊机箱。在处理Token生成等内存敏感操作时,能突破内存墙实现极低延迟。
Q2:为什么要将GPU和Corsair结合使用而不是只用GPU?
A:这是因为不同的AI推理阶段有不同的需求。GPU非常适合处理计算密集型任务,但对于内存密集型操作如Token生成,专用的推理加速器更有效。这种混合架构可以实现延迟和每瓦吞吐量高达10倍的改进,在功耗限制下获得更好的性能。
Q3:这种混合架构何时能普及应用?
A:d-Matrix和Gimlet Labs的联合解决方案计划于2026年下半年通过Gimlet Cloud向特定客户提供。初期目标是前沿AI实验室,用于交互式编程和自主智能体等需要高速处理的应用场景。随着AI模型复杂度增加,这种异构系统可能主导AI部署的下一阶段。
好文章,需要你的鼓励
企业AI搜索公司Glean宣布年度经常性收入(ARR)达3亿美元,较15个月前的1亿美元增长三倍。尽管谷歌、微软、OpenAI等科技巨头纷纷入局企业AI搜索市场,Glean凭借"上下文图谱"技术深度理解企业业务需求,并帮助客户显著降低AI计算成本。该公司提供按用量计费和混合定价两种模式,客户涵盖Databricks、Reddit、Pinterest及三星等企业。Glean上轮融资后估值达72亿美元。
香港中文大学与MiniMax提出ClaimDiff-RL框架,将图像描述的AI训练从整体打分升级为逐条核查,有效解决了传统方式导致AI"少说保平安"的问题,同时在多项基准测试上超越Gemini-3-Pro-Preview。
杰夫·贝索斯旗下的蓝色起源公司在佛罗里达卡纳维拉尔角进行静态点火测试时,新格伦重型火箭发生爆炸。这是美国历史上最大规模的火箭爆炸之一,也是蓝色起源公司遭遇的最严重失败。所有人员安全,但该事故可能导致新格伦火箭项目长期暂停。此前该火箭已成功完成三次发射,并实现了助推器回收和重复使用。
ParaVT是一个由南洋理工等多校联合提出的并行视频工具调用框架,通过让AI同时分析多段视频并引入PARA-GRPO算法解决训练中的格式崩溃与工具跳过问题,在六项长视频理解测试中平均提升约7.9%。