英伟达最小的Grace-Blackwell工作站本周终于上市,距离这家GPU巨头在CES上首次展示这款AI迷你PC(当时称为Project Digits)已近一年时间。
现在重新命名为DGX Spark,这款大约NUC尺寸的系统搭配了一颗Blackwell GPU,能够提供高达1千万亿次的稀疏FP4性能,配备128GB统一系统内存和200Gbps高速网络连接。
虽然体积小巧,但价格并不便宜,起售价约3000美元。不过,它的目标用户并非主流PC购买者。这些系统还将通过OEM合作伙伴以各种品牌名称销售,甚至不会预装Windows系统。这并非Copilot+ PC,而是搭载定制版Ubuntu Linux系统。
Spark实际上是为AI和机器人开发者、数据科学家以及机器学习研究人员设计的,他们需要一个成本较低但仍能运行高达2000亿参数模型的工作站平台。
这类工作负载对内存需求极大,在消费级显卡上运行并不现实。高端工作站显卡如RTX Pro 6000可配备高达96GB的高速GDDR7内存,但单卡价格就超过8000美元,还不包括其他平台成本。
在发布时,DGX Spark在技术上是英伟达内存容量最大的工作站GPU,至少在基于Blackwell Ultra的DGX Station发布之前是如此。
超级芯片的小型化
DGX Spark采用GB10片上系统芯片,本质上是为旗舰NVL72机架系统提供动力的Grace-Blackwell超级芯片的小型化版本。
正如我们在Hot Chips大会上探讨的,GB10由两个计算芯片组成,通过英伟达专有的NVLink芯片互连技术以600GB/s的速度连接。顺便提一下,这项技术最终将用于将英伟达GPU与英特尔未来的客户端CPU连接,作为两家芯片巨头合作的一部分。
GPU芯片能够提供高达1千万亿次的稀疏FP4算力,或约31万亿次单精度(FP32)算力,在原始性能方面与RTX 5070相当。是的,这款售价550美元的消费级显卡确实提供了两倍多的内存带宽,但由于只有12GB GDDR7内存,在模型和AI工作负载运行方面会受到相当限制。
与英伟达原始的Grace CPU不同,GB10的CPU芯片并未使用Arm的Neoverse V2核心。相反,该芯片是与联发科合作设计的,配备20个ARMv9.2核心。其中10个是Arm的高性能X925核心,其余基于效率优化的Cortex A725核心。
与苹果M系列和AMD Strix Halo SoC类似,GB10的CPU和GPU都由LPDDR5x公共内存池供电。这种计算和内存的紧密耦合使得这些芯片制造商能够实现比当今传统PC平台高两倍以上的带宽。对于GB10,英伟达声称内存带宽为273GB/s。
扩展能力
在Spark上你会发现一个其他系统没有的功能:高速网络连接。就像英伟达的数据中心平台一样,Spark的GB10配备了集成的ConnectX-7网络卡,背面有一对QSFP以太网端口。
虽然理论上可以用于高速网络连接,但这些端口实际上是为连接两台DGX Spark而设计的,有效地将其微调和推理能力翻倍。
在这种配置下,英伟达表示用户能够在4位精度下对高达4050亿参数的模型进行推理。
来自英伟达、宏碁、华硕、戴尔科技、技嘉、慧与、联想和微星的DGX Spark系统将于10月15日开始销售。
Q&A
Q1:DGX Spark工作站的主要配置是什么?
A:DGX Spark搭载GB10芯片,提供1千万亿次稀疏FP4算力或31万亿次单精度算力,配备128GB统一系统内存、200Gbps高速网络连接和273GB/s内存带宽,大约NUC尺寸,预装定制版Ubuntu Linux系统。
Q2:DGX Spark与消费级显卡相比有什么优势?
A:虽然GPU性能与RTX 5070相当,但DGX Spark拥有128GB统一内存,而RTX 5070仅有12GB GDDR7。这使得DGX Spark能够运行高达2000亿参数的大模型,满足AI和机器学习研究的内存需求。
Q3:DGX Spark支持多机连接吗?
A:支持。通过集成的ConnectX-7网络卡和背面的QSFP以太网端口,可以连接两台DGX Spark,有效翻倍其微调和推理能力。在双机配置下,用户可以在4位精度下对高达4050亿参数的模型进行推理。
好文章,需要你的鼓励
牛津大学提出PHYSIFORMER,一种扩散变换器模型,通过三维网格顶点轨迹直接在世界坐标空间预测刚性与弹性物体的物理运动,一次性生成全序列轨迹,超越自回归基线。
随着医疗数据数字化与互操作性的进步,跨机构纵向患者数据的研究应用成为可能。本研究通过对20位领域专家的访谈,识别出8种数据收集方法,涵盖智能手机应用、结构化数据导出、区域/全国研究查询及聚合数据源等。研究发现,各方法均有其优缺点,无单一最优方案。参与者中介交换方式可绕过复杂治理安排,但存在数据缺口;全国性网络尚不支持研究查询。公共政策的持续推进将对该领域发展起关键作用。
研究发现主流奖励模型对同等质量答案给出差异悬殊的分数,并提出"奖励聚类"算法通过蒙特卡洛随机失活将连续分数离散化,在不重训模型的前提下有效减少AI训练中的奖励作弊现象。