DDN表示基于Lustre的EXAScaler仍是核心产品

尽管多名Lustre高级工程师从DDN离职成立咨询公司Lustre Collective,DDN仍坚持其基于Lustre的EXAScaler平行文件系统的核心地位。DDN表示,EXAScaler与对象存储软件Infinia是互补而非竞争关系。EXAScaler在高性能计算和AI训练中表现优异,速度比市场其他产品快17倍,是Google Managed Lustre服务的基础。Infinia专注于AI管道的数据管理,两者在统一控制平面下协同工作。

在几位资深Lustre工程师离开DDN创立专注于并行文件系统的咨询公司The Lustre Collective之后,DDN向我们介绍了其对Lustre未来以及更广泛存储产品组合的看法。首席产品官Omer Asad阐述了DDN基于Lustre的EXAScaler并行文件系统与其对象存储软件Infinia的定位,认为两者是互补而非竞争产品。

The Lustre Collective声称:"我们的团队在2001年帮助发明了Lustre,并从2003年起直接负责每个主要版本的发布。TLC将保持Lustre的开放性、免费性,使其成为地球上最快的并行文件系统。"

虽然基于对象的Infinia看起来像是基于文件的EXAScaler (Lustre)的竞争产品,但Asad表示它们是互补的而非竞争产品。

从组织角度来看,Asad表示DDN的产品管理高级副总裁James Coomer一直是"DDN的独当一面的人物"。他"专注于EXAScaler产品,这是高性能计算产品,同时也帮助将HPC战略转型为我们所说的英伟达集成AI集群战略。"

关于EXAScaler,"我们仍然是英伟达最大的供应商之一。因此很多GPU实际上都是在我们的EXAScaler产品基础上进行训练和开发的。它将从这一趋势中继续获得推动力...EXAScaler正迅速成为英伟达云提供商中高速训练和推理的标准。从这个角度来看,它将持续发展。"

"它比市场上任何其他产品快17倍。它也是谷歌托管Lustre服务的基础。谷歌Lustre是与谷歌的首个协议。因此EXAScaler是谷歌控制台运行的基础。"

Coomer正在"研究如何将我们现有的EXAScaler基础设施更多地应用于训练和推理,让它在这些领域更加得心应手。"

现在Sanjay Jagad被任命为DDN产品管理副总裁,他"将负责我们的下一代产品Infinia。"

Asad解释说:"我们看到AI流水线有不同的阶段。它包含数据预加载、训练、推理训练、推理重学习,然后是数据整理。Infinia的重点是与Exa进行数据往返传输,然后从客户角度来看,DDN成为整个AI流水线的单一数据层平台。"

"当我们面对客户时,Infinia和EXAScaler之间没有区别。这些系统在两者之间无缝传输数据。但EXAScaler的核心是Lustre,我们管理和维护它。Lustre是一个并行文件系统。要在Lustre系统中添加复制、快照等功能几乎是不可能的。许多人都尝试过。AWS试过,放弃了,GCP也试过,基本上完全放弃了,说给我们EXAScaler,我们就用它为客户服务。这对我们来说是一个巨大的胜利。所以我们与CTO Sven Oehme、James和我一起,基本上采用了自下而上的方法来制定AI的数据管理和数据整理策略。"

"这就是Infinia。它是一个分布式键值存储,内置高速数据访问服务和命名空间服务。它插在EXAScaler产品后面,向其提供和加载数据。然后它还面向NFS端点、S3端点以及与Spark、Hadoop和所有数据生态系统集成的端点,成为客户管理和整理数据的单一平台。"

"Sanjay专注于Infinia,James专注于从HPC向AI的整体转型,以及我们的英伟达集成生态系统。"

我们看到的情况是,就HPC和AI客户而言,无论他们使用HPC还是训练或推理,他们都会看到一个连续的DDN控制平面。无论他们做什么,这都将是一致的,然后他们会将Infinia视为他们的AI训练和推理入口点。在幕后,当需要时,Infinia将使用EXAScaler作为高速处理引擎。两者之间将有数据交换,客户可以了解这一点(如果他们愿意),但不需要了解,因为这将在产品内部发生。

Asad澄清了这一情况:"如果客户说,'嘿,我每个GPU以1到2GB/秒的速度训练',Infinia可以做所有这些事情,没有问题。我们在xAI运行350PB的单个Infinia集群。据我所知,这是AWS之外单一命名空间中最大的S3集群。这太疯狂了。所以它是为规模而建的。"

"大约有20-25%的客户非常HPC,但...他们也希望在训练中获得15GB/秒的吞吐量。只有一样东西能做到这一点,那就是EXAScaler。然后EXAScaler就从Infinia加载数据,立即开始训练。"

"顺便说一下,这与谷歌的方法非常相似。在谷歌集群内部,当TPU和GPU想要达到1.5Tbps时,运行的是EXAScaler。在后端,它从谷歌云存储为该特定客户加载数据。"

EXAScaler加Infinia在谷歌之外复制了这一点。"在DDN数据平面中,你有EXAScaler,它以火箭速度运行,17、15,有时150GB/秒。20-25%的客户这样做。xAI是这样的客户之一。特斯拉、SpaceX是这样的客户之一。英伟达自己也是这样的客户之一。但EXAScaler几代以来都没有复制,没有存储库,没有快照。所以所有这些功能都内置在Infinia中。"

"但也有某些客户说,'嘿,我们不想要这两样东西。'所以我们说,如果你想比VAST快3倍,Infinia绝对可以做到。所以你有一个DDN数据游戏。在数据平面内部,你有EXAScaler和Infinia隐藏着。现在,如果客户想要快速S3、数据版本控制、数据快照,他们想要通过NFS和对象导出相同的数据,所有这些魔法都在Infinia层发生。"

"现在客户突然说,我想把这个东西调到150GB/秒,因为我的组织需要训练一些花哨的新大语言模型。我们说,好的,调高它。我们将数据从Infinia预加载回EXAScaler,它们就开始了。"

这里传达的一个关键信息是EXAScaler绝对必不可少。它是DDN未来产品的关键部分,不会被Infinia边缘化。

Asad热情地同意:"不,不,不。我们不能。我们是唯一一家覆盖整个范围的公司。在HPC领域仍有大量客户在扩张。AMD刚刚推出了专门用于HPC的新GPU。我们刚刚与戴尔一起在法国拿下了一个大型石油天然气集群扩展项目。全部都是EXAScaler。"

关于资深DDN工程师离开DDN成立The Lustre Collective,他这样想:"问题是,Andreas [Dilger]和Peter Jones已经在公司工作了近12年。如果Andreas想要做些什么并成为Lustre的超级大神,我会说,给你所有的力量,伙计,绝对的,你需要什么来成功。归根结底,DDN百分之百致力于Lustre。我们有大约70人现在在Lustre团队中专门专注于此。这基本上是我们围绕组织建立的扩张。"

"归根结底,Andreas仍然是DDN在推进Lustre战略和推进EXAScaler战略方面最亲密的顾问之一。Peter Jones仍然是我们处理HPC交易时的主要贡献者之一,具有顾问身份。但如果两个资深人员想要扩展他们的视野,想要亲自涉足商业,第一次建立自己的公司,因为他们喜欢这样,我们绝对会鼓励。我们不会阻止。"

EXAScaler和Infinia是合作的、集成的合作伙伴产品,在跨越HPC、AI训练、推理和数据整理的单一DDN控制平面下,各自扮演自己的角色。

Q&A

Q1:EXAScaler和Infinia之间是什么关系?

A:EXAScaler和Infinia是DDN的互补产品而非竞争产品。EXAScaler基于Lustre并行文件系统,专门处理高速数据处理,而Infinia是分布式对象存储,负责数据管理和整理。两者在单一DDN控制平面下协同工作,为客户提供完整的AI数据流水线解决方案。

Q2:为什么DDN的Lustre工程师要离开公司成立The Lustre Collective?

A:资深工程师Andreas Dilger和Peter Jones在DDN工作了近12年后,想要扩展视野并首次创立自己的公司。DDN对此表示支持和鼓励,他们仍将以顾问身份继续为DDN提供Lustre战略建议和HPC项目支持。

Q3:EXAScaler相比其他产品有什么优势?

A:EXAScaler比市场上其他产品快17倍,是谷歌托管Lustre服务的基础,也是英伟达、特斯拉、SpaceX等客户的选择。它能够提供高达150GB/秒的超高速数据处理能力,特别适合需要极高吞吐量的AI训练和HPC应用场景。

来源:BLOCKS & FILES

0赞

好文章,需要你的鼓励

2026

01/06

08:11

分享

点赞

邮件订阅