d-Matrix公司在AI基础设施峰会上发布了其AI加速战略的新组件——d-Matrix JetStream IO加速器,这是一款定制PCI IO卡,公司声称它能为AI推理提供超低延迟。
该加速器能够提供400Gbps带宽和2微秒延迟,并可在服务器内部和多个节点间进行扩展。这一产品旨在与该公司去年末发布的Corsair推理加速平台配合使用,该平台据称能够支持Llama3 8B模型每秒处理60,000个Token,每个Token处理时间仅需1毫秒。
CEO兼联合创始人Sid Sheth表示,公司成立于2019年,专门针对推理问题,即使当时整个科技和投资界都专注于训练和开发更大规模的大语言模型。他说:"到2025年,特别是在Deepseek之后,叙述焦点真正转向了不仅仅是推理,而是商业可行的推理。如何在过去10年大规模资本支出投资上获得投资回报。"
这归结为两个关键问题,首先是"内存和计算瓶颈",公司试图通过Corsair平台解决这一问题。上个月,该公司又推出了3DIMC技术来堆叠LPDDR5和改良的SRAM,这项技术将应用于即将推出的Raptor平台。
Sheth指出,随着向推理的转变,用户明显需要"与应用程序进行极快的交互"。但仅从超快内存中运行模型存在挑战,他说:"我们在单服务器的快速内存容量上受到限制。"
这意味着必须解决IO瓶颈。"既然我们已经解决了内存和计算瓶颈,我们如何将单节点解决方案扩展出去,以便获得更多超快内存的访问权限,同时解决IO瓶颈。"
Sheth表示,他们研究了英伟达和博通等公司的产品,"结论是市场上没有产品具有我们寻找的那种延迟优势。"
这款基于FPGA的四分之三长度卡将与服务器内的Corsair设备并行工作。他展示了一张架构图,显示JetStream与四个Corsair设备并行,整个五件套连接到PCIe交换机,再连接到其他节点。
这一切都将在节点内扩展,他说:"然后通过机架顶部交换机,我们可以将其连接到spine交换机,这是以太网交换机的最上层。通过这种方式,我们能够在多个机架间扩展这一解决方案。"
"这不是新芯片。这是FPGA,"他解释道。"我们与外部合作伙伴开发了所有IP,然后这些IP被整合到另一个合作伙伴的FPGA中。"
在计算加速方面,Corsair之后将推出几周前发布的Raptor产品,未来产品将整合堆叠内存技术。
同时,在IO方面,JetStream技术将构建到芯片组中,使用SUE/UA Link,并在时机成熟时整合光学IO,"当协同封装光学技术准备就绪时。"
产品副总裁Sree Ganesan补充说,他们一直打算将Corsair跨节点扩展,这正是潜在通信开销真正开始显现的地方。
"因此,我们必须对跨多节点扩展做些什么,以构建更大的模型,但同时不能损失Corsair带来的延迟优势。"
她表示,JetStream符合当前标准,客户可以即插即用到现有数据中心。"它基本上使用标准以太网进行通信,使用以太网协议的最小子集来实际使用这些交换机,只需标准的机架顶部以太网交换机就能连接多个机架。"
Q&A
Q1:d-Matrix JetStream IO加速器有什么特点?
A:d-Matrix JetStream是一款定制PCI IO卡,能够提供400Gbps带宽和2微秒超低延迟,专为AI推理设计。它可以在服务器内部和多个节点间进行扩展,解决AI推理中的IO瓶颈问题。
Q2:JetStream如何与现有系统集成?
A:JetStream基于FPGA技术,是四分之三长度卡,可与Corsair推理加速平台配合使用。它符合当前标准,支持即插即用,使用标准以太网协议,可直接集成到现有数据中心的标准机架顶部以太网交换机中。
Q3:d-Matrix为什么要开发这款IO加速器?
A:d-Matrix发现在AI推理应用中存在两个关键瓶颈:内存计算瓶颈和IO瓶颈。在通过Corsair平台解决了内存计算瓶颈后,公司需要解决IO瓶颈来实现跨节点扩展,获得更多快速内存访问权限,满足用户对极快交互的需求。
好文章,需要你的鼓励
数据分析平台公司Databricks完成10亿美元K轮融资,公司估值超过1000亿美元,累计融资总额超过200亿美元。公司第二季度收入运营率达到40亿美元,同比增长50%,AI产品收入运营率超过10亿美元。超过650家客户年消费超过100万美元,净收入留存率超过140%。资金将用于扩展Agent Bricks和Lakebase业务及全球扩张。
Meta与特拉维夫大学联合研发的VideoJAM技术,通过让AI同时学习外观和运动信息,显著解决了当前视频生成模型中动作不连贯、违反物理定律的核心问题。该技术仅需添加两个线性层就能大幅提升运动质量,在多项测试中超越包括Sora在内的商业模型,为AI视频生成的实用化应用奠定了重要基础。
医疗信息管理平台Predoc宣布获得3000万美元新融资,用于扩大运营规模并在肿瘤科、研究网络和虚拟医疗提供商中推广应用。该公司成立于2022年,利用人工智能技术提供端到端平台服务,自动化病历检索并整合为可操作的临床洞察。平台可实现病历检索速度提升75%,临床审查时间减少70%,旨在增强而非替代临床判断。
上海AI实验室发布OmniAlign-V研究,首次系统性解决多模态大语言模型人性化对话问题。该研究创建了包含20万高质量样本的训练数据集和MM-AlignBench评测基准,通过创新的数据生成和质量管控方法,让AI在保持技术能力的同时显著提升人性化交互水平,为AI价值观对齐提供了可行技术路径。