英伟达DGX Spark:小巧超算处理大模型的新选择

英伟达推出售价3000-4000美元的DGX Spark,号称"全球最小AI超算"。该设备搭载128GB内存,基于Blackwell架构的GB10芯片,虽然速度不及RTX 5090,但能运行消费级显卡无法处理的大模型。支持2000亿参数模型推理和700亿参数模型微调,在AI开发领域具有独特优势,但软件生态仍需完善。

英伟达称其DGX Spark为"世界最小AI超级计算机",售价在3000至4000美元之间(取决于配置和OEM厂商)。虽然这款基于Arm架构的迷你PC在性能上不是英伟达产品线中最快的GPU,无法在大语言模型推理、微调或图像生成方面超越RTX 5090,但它能够运行5090或其他消费级显卡根本无法处理的模型。

在本地AI开发中,如果没有足够的显存来完成工作,再多的算力和内存带宽也无济于事。任何尝试在消费级显卡上进行机器学习工作负载的人,都会遇到CUDA内存不足的错误。

DGX Spark配备了128GB内存,这是英伟达工作站GPU产品组合中容量最大的。英伟达通过使用LPDDR5x实现了这一点,虽然与英伟达50系列使用的GDDR7相比速度较慢,但这个小巧的算力盒子可以运行参数多达2000亿的推理模型,或对参数多达700亿的模型进行微调(当然都是在4位精度下)。

通常,这类工作负载需要多个高端GPU,成本高达数万美元。通过牺牲一些性能和大量带宽来换取纯粹的容量,英伟达构建了一个系统,虽然在任何单项任务上都不是最快的,但可以运行所有这些任务。

英伟达并不是第一个构建此类系统的公司。苹果和AMD已经有了配备大量LPDDR5x和宽内存总线的机器,这使它们在本地AI开发社区中非常受欢迎。

然而,英伟达依靠的是为系统提供动力的GB10基于与其他当前一代GPU相同的Blackwell架构。这意味着它可以利用围绕其CUDA运行时构建的近20年软件开发成果。

虽然苹果Metal和AMD ROCm软件栈的生态系统在过去几年中已经相当成熟,但当你在AI迷你PC上花费3000-4000美元时,知道你现有的代码应该能够开箱即用是很令人安心的。

需要注意的是,DGX Spark将可从英伟达和戴尔、联想、惠普、华硕、宏碁等OEM合作伙伴的定制版本中获得。我们评测的英伟达创始人版售价为3999美元,配备4TB存储空间和金色外壳。其他供应商的版本可能存储容量较少,价格也更低。

点燃火花的机器

机器本身的设计就像一个微型化的DGX-1,尺寸仅为150 x 150 x 50.5毫米,这并非巧合。

2016年,英伟达CEO兼皮夹克爱好者黄仁勋亲自将第一台DGX-1交付给了OpenAI的埃隆·马斯克。事实证明,这个系统就是点燃生成式AI热潮的火花。周一,黄仁勋再次拜访马斯克,这次手里拿着一台DGX Spark。

作为迷你PC,Spark采用相当标准的流通式设计,通过前面的金属网面板吸入冷空气,从后面排出热空气。

无论好坏,这种设计选择意味着所有I/O端口都位于设备背面。在那里,我们找到了四个USB-C端口,其中一个专用于机器的240W电源适配器,剩下的三个可用于存储和外设。

除了USB之外,还有一个标准HDMI端口用于显示输出、一个10 GbE RJ45网络端口,以及一对QSFP笼子,可用于以200 Gbps的速度连接形成迷你Spark集群。

英伟达官方只支持两台Spark的集群,但我们被告知,如果你愿意的话,没有什么能阻止你超越界限构建一个微型超级计算机。我们确实见过用这种方式构建的更奇怪的机器。还记得空军在2010年构建的那个索尼PlayStation超级集群吗?

系统底部有一个磁性附着的盖子,但下面隐藏的只是一些无线天线。看起来,如果你想将4TB SSD换成更高容量的,你需要拆解整个设备。

希望戴尔、HPE、华硕等合作伙伴的系统能让更换存储变得更容易一些。

最小的超级芯片

Spark的核心是英伟达的GB10片上系统(SoC),顾名思义,它本质上是在公司价值数百万美元的机架系统中找到的Grace Blackwell超级芯片的缩小版。

该芯片具有两个晶粒:一个用于CPU,一个用于GPU——都基于台积电的3nm工艺技术构建,并使用该晶圆厂的先进封装技术进行键合。

与更大的兄弟产品不同,GB10不使用Arm的Neoverse核心。相反,该芯片是与联发科合作构建的,具有20个Arm核心——10个X925性能核心和10个Cortex A725效率核心。

与此同时,GPU基于与英伟达50系列其他产品相同的Blackwell架构。这家AI武器供应商声称,该图形处理器能够提供1 petaFLOP的FP4计算能力。这听起来不错,直到你考虑到并没有那么多工作负载能够同时利用稀疏性和4位浮点运算。

在实践中,这意味着任何GB10系统最可能看到的是500 dense teraFLOPS的FP4性能。

图形处理器和CPU都由共同的LPDDR5x内存池供电,正如我们已经提到的,总容量为128GB,提供273 GBps的带宽。

初始设置

开箱即用,Spark可以在两种模式之一中使用:带有键盘、鼠标和显示器的独立系统,或者作为可通过网络从笔记本电脑或台式机访问的无头伴侣系统。

在我们的大部分测试中,我们选择将Spark用作独立系统,因为我们期望这是许多人选择与机器交互的方式。

设置很简单。连接到Wi-Fi、创建用户帐户并设置时区和键盘布局等内容后,我们看到了Ubuntu 24.04 LTS的轻度定制版本。

如果你希望使用Windows,你在这里找不到。另一方面,系统的AI功能和能力都没有与Copilot或其集成的间谍软件Recall绑定。这也意味着你可能不会在这台机器上进行太多游戏,直到Steam决定为Linux发布Arm64客户端。

英伟达对操作系统所做的大多数定制都在幕后。它们包括驱动程序、实用程序、容器插件、Docker和至关重要的CUDA工具包等。

在最好的情况下,管理这些都是一个麻烦,所以很高兴看到英伟达花时间定制操作系统以减少初始设置时间。

话虽如此,硬件仍然有一些粗糙的边缘。许多应用程序尚未针对GB10的统一内存架构进行优化。在我们的测试中,这导致了不少尴尬的情况,其中GPU从系统中夺取了足够的内存来崩溃Firefox,或者更糟的是,锁定系统。

降低入门门槛

Spark针对各种机器学习、生成式AI和数据科学工作负载。虽然这些不再像以前那样深奥,但对新来者来说仍然可能令人生畏。

DGX Spark的一个重要卖点是其背后的软件生态系统。英伟达已经竭尽全力提供文档、教程和演示,以帮助用户入门。

这些指南采用简短、易于遵循的操作手册形式,涵盖从AI代码助手和聊天机器人到GPU加速数据科学以及视频搜索和摘要的主题。

这非常有价值,使Spark和GB10系统感觉不太像通用迷你PC,更像AI时代的树莓派。

性能测试

英伟达的GB10系统是否能够提供足以证明其3000美元以上价格标签的性能和实用性水平,是另一个完全不同的问题。为了找出答案,我们让Spark经历了广泛的微调、图像生成和大语言模型推理工作负载。

经过几天的基准测试和演示,我们描述Spark的最佳方式是AI领域的皮卡车。当然有更快或更高容量的选择,但对于你可能想做的大部分AI工作,它都能完成任务。

微调测试

Spark的内存容量对微调特别有吸引力,微调是通过向模型暴露新信息来教授新技能的过程。

即使是像Mistral 7B这样的适度大语言模型的完整微调也可能需要超过100GB的内存。因此,大多数希望定制开放模型的人必须依赖LoRA或QLoRA等技术才能让工作负载在消费级卡上运行。即便如此,他们通常仅限于相当小的模型。

使用英伟达的GB10,像Mistral 7B这样的模型的完整微调是完全合理的,而LoRA和QLoRA使得像Llama 3.3 70B这样的模型的微调成为可能。

鉴于测试时间有限,我们选择在一百万个令牌的训练数据上微调Meta的30亿参数Llama 3.2模型。

正如你所看到的,凭借125 teraFLOPS的dense BF16性能,Spark能够在一分半钟多一点的时间内完成工作。

相比之下,我们的48GB RTX 6000 Ada——一张在一年前售价约为GB10系统两倍的卡——在不到30秒的时间内完成了基准测试。

这并不太令人惊讶。RTX 6000 Ada提供了近3倍的dense BF16性能。然而,它已经在推动模型大小和序列长度的极限。使用更大的模型或增加每个训练样本的大小,卡的48GB容量将在Spark开始吃力之前很久就成为瓶颈。

我们还尝试在RTX 3090 TI上运行基准测试,该卡拥有160 teraFLOPS的dense BF16峰值性能。理论上,该卡应该在一分钟多一点的时间内完成测试。不幸的是,由于只有24GB的GDDR6X,它从未得到机会,因为它很快触发了CUDA内存不足错误。

图像生成测试

图像生成是另一个内存密集型工作负载。与可以压缩到较低精度(如INT4或FP4)而质量损失可忽略不计的大语言模型不同,扩散模型情况并非如此。

量化导致的质量损失对这类模型更明显,因此能够以其原生FP32或BF16精度运行它们是一个很大的优势。

我们通过在流行的ComfyUI网页界面中以BF16精度启动Black Forest Lab的FLUX.1 Dev来测试DGX Spark。在这种精度下,这个120亿参数模型需要至少24GB的显存才能在GPU上运行。这意味着RTX 3090 TI再次出局。

从技术上讲,你可以将模型的一部分卸载到系统内存,但这样做可能会严重影响性能,特别是在更高分辨率或批量大小时。由于我们关注硬件性能,我们选择禁用CPU卸载。

将ComfyUI设置为50个生成步骤,DGX Spark再次不是明显的赢家,需要大约97秒来生成图像,而RTX 6000 Ada用了37秒。

但是,凭借128GB的显存,Spark可以做的不仅仅是运行模型。英伟达的文档提供了使用你自己的图像微调像FLUX.1 Dev这样的扩散模型的说明。

该过程大约需要四个小时完成,使用了90多GB的内存,但最终我们得到了一个能够生成DGX Spark、玩具黄仁勋摇头娃娃或两者任意组合的可接受图像的模型微调版本。

结果并不完美,但经过大约4小时的微调,我们能够训练Black Forest Labs的Flux.1 Dev模型并向它展示DGX Spark是什么。

大语言模型推理测试

对于我们的大语言模型推理测试,我们使用了三个最流行的英伟达硬件模型运行器:Llama.cpp、vLLM和TensorRT LLM。

我们所有的推理测试都使用4位量化运行,这是一个将模型权重压缩到原始大小的大约四分之一,同时在此过程中将吞吐量提高四倍的过程。

在模型运行器中,Llama.cpp实现了最高的令牌生成性能,在几乎每个场景中都匹配甚至超越了vLLM和TensorRT LLM。

当涉及到提示处理时,TensorRT实现了明显优于vLLM或Llama.cpp的性能。

我们注意到我们确实看到了某些模型的一些奇怪行为,其中一些可以归因于软件不成熟。例如,vLLM使用仅权重量化启动,这意味着它无法利用GB10张量核心中的FP4加速。

我们怀疑这就是为什么vLLM中的TTFT与TensorRT相比如此差的原因。随着对GB10的软件支持改善,我们完全期望这个差距会大大缩小。

上述测试是使用相对较短的输入和输出序列完成的,就像你在多轮聊天中可能看到的那样。然而,这实际上更像是最佳情况场景。随着对话的继续,输入增长,给计算密集型的预填充阶段带来更多压力,使模型开始响应的等待时间更长。

为了看看随着上下文增长Spark的表现如何,我们测量了它在各种输入大小(从4096个令牌到65,536个令牌)下对gpt-oss-120B的TTFT(X轴)和令牌生成(Y轴)。对于这个测试,我们选择使用TensorRT,因为它在我们的批处理测试中实现了最高性能。

随着输入长度增加,生成吞吐量下降,首个令牌时间攀升,当达到65,536个令牌时超过200毫秒。这相当于大约200页双倍行距的文本。

这对于如此小的系统来说令人印象深刻,并展示了Blackwell架构上引入的原生FP4加速的性能优势。

多批处理性能

大语言模型的另一个常见场景是使用它们从大量文档中提取信息。在这种情况下,与其依次处理它们,通常更快的是在更大的批次中处理它们,如4、8、16、32或更多。

为了测试Spark在批处理场景中的性能,我们让它使用gpt-oss-120B处理1024个令牌输入并生成1024个令牌响应,批量大小从1到64不等。

在这种情况下,我们看到性能在大约批次32处达到平台期,因为每个后续批量大小需要更长时间才能完成。这表明,至少对于gpt-oss-120B,Spark的计算或内存资源在这一点左右开始饱和。

在线服务

虽然Spark显然是为个人使用而设计的,但我们可以轻易看到一个小团队部署一个或多个这些作为推理服务器来本地处理数据或文档。

类似于多批处理基准测试,我们在各种并发级别测量TTFT、请求率和个人性能等性能指标。

随着四个并发用户,Spark能够每三秒处理一个请求,同时以每用户17 tok/s维持相对交互式的体验。

正如你所看到的,机器可以处理的请求数量随着并发性而增加。多达64个并发请求,机器能够维持低于700毫秒的可接受TTFT,但这是以缓慢的用户体验为代价的,因为生成率暴跌至4 tok/s。

这告诉我们,在这个特定的工作负载中,Spark有足够的计算能力跟上大量并发请求,但受到内存带宽不足的瓶颈。

话虽如此,即使是每秒0.3的请求率也比你想象的要多得多,计算出每小时1080个请求——足以支持一天中少数用户,延迟最小。

DGX Spark的真正竞争对手

正如我们之前暗示的,DGX Spark的真正竞争对手不是消费级甚至工作站GPU。相反,像苹果M4 Mac Mini和Studio或基于AMD Ryzen AI Max+ 395的系统(你可能通过Strix Halo这个名字认识)构成了最大的挑战。

这些系统具有类似的统一内存架构和大量快速DRAM。不幸的是,我们手头没有这些系统进行比较,所以我们只能指向规格参数。即便如此,我们也没有完整的信息。

将DGX Spark放在这个背景下,基于GB10的系统3000-4000美元的价格标签听起来并不那么疯狂。AMD及其合作伙伴在价格上严重低于英伟达,但Spark至少在纸面上要快得多。

另一方面,具有同等存储容量的Mac Studio相当昂贵,但拥有更高的内存带宽,这将转化为更好的令牌生成。更重要的是,如果你有钱烧在本地令牌工厂上,M3 Ultra变体可以配置多达512GB。

Spark最大的竞争可能来自内部。事实证明,英伟达实际上制造了一个更强大的基于Blackwell的迷你PC,根据你的配置,甚至可能更便宜。

英伟达的Jetson Thor开发套件主要设计为机器人开发平台。凭借两倍的稀疏FP4、128GB内存和273 GBps带宽,该系统以3499美元的价格比DGX Spark提供了更好的性价比。

Thor确实具有较少的I/O带宽,只有一个100 Gbps QSFP插槽,可以分解为四个25 Gbps端口。尽管Spark的集成ConnectX-7 NIC可能很酷——我们还没有机会测试它们——我们期望许多考虑购买的人会乐意放弃高速网络,以换取更低的建议零售价。

总结

DGX Spark是否适合你将取决于几个因素。

如果你想要一个小巧、低功耗的AI开发平台,可以兼作生产力、内容创作或游戏系统,那么DGX Spark可能不适合你。你最好投资像AMD的Strix Halo或Mac Studio这样的东西,或者等几个月,直到英伟达的GB10超级芯片不可避免地出现在Windows盒子中。

但是,如果你的主要关注点是机器学习,并且你正在市场上寻找相对便宜的AI工作站,很少有选项能像Spark一样勾选这么多方框。

Q&A

Q1:DGX Spark的主要优势是什么?

A:DGX Spark的最大优势是配备了128GB的超大内存容量,这是英伟达工作站GPU产品组合中容量最大的。它可以运行参数多达2000亿的推理模型,或对参数多达700亿的模型进行微调,而这些工作负载通常需要多个高端GPU才能完成,成本高达数万美元。

Q2:DGX Spark的性能表现如何?

A:DGX Spark在单项任务上并不是最快的,但可以运行其他消费级显卡无法处理的大型模型。在微调测试中,它能够在一分半钟内完成30亿参数模型的训练。在图像生成方面需要97秒生成一张图像,虽然不是最快但能稳定运行大型扩散模型。

Q3:DGX Spark适合哪些用户群体?

A:DGX Spark主要适合专注于机器学习、生成式AI和数据科学工作负载的用户。如果你需要一个能够处理大型模型微调和推理的相对便宜的AI工作站,DGX Spark是很好的选择。但如果你需要兼作生产力、内容创作或游戏系统的多用途平台,可能需要考虑其他选项。

来源:The Register

0赞

好文章,需要你的鼓励

2025

10/15

10:54

分享

点赞

邮件订阅