英伟达最小的Grace-Blackwell工作站本周终于上市,距离这家GPU巨头在CES上首次展示这款AI迷你PC(当时称为Project Digits)已近一年时间。
现在重新命名为DGX Spark,这款大约NUC尺寸的系统搭配了一颗Blackwell GPU,能够提供高达1千万亿次的稀疏FP4性能,配备128GB统一系统内存和200Gbps高速网络连接。
虽然体积小巧,但价格并不便宜,起售价约3000美元。不过,它的目标用户并非主流PC购买者。这些系统还将通过OEM合作伙伴以各种品牌名称销售,甚至不会预装Windows系统。这并非Copilot+ PC,而是搭载定制版Ubuntu Linux系统。
Spark实际上是为AI和机器人开发者、数据科学家以及机器学习研究人员设计的,他们需要一个成本较低但仍能运行高达2000亿参数模型的工作站平台。
这类工作负载对内存需求极大,在消费级显卡上运行并不现实。高端工作站显卡如RTX Pro 6000可配备高达96GB的高速GDDR7内存,但单卡价格就超过8000美元,还不包括其他平台成本。
在发布时,DGX Spark在技术上是英伟达内存容量最大的工作站GPU,至少在基于Blackwell Ultra的DGX Station发布之前是如此。
超级芯片的小型化
DGX Spark采用GB10片上系统芯片,本质上是为旗舰NVL72机架系统提供动力的Grace-Blackwell超级芯片的小型化版本。
正如我们在Hot Chips大会上探讨的,GB10由两个计算芯片组成,通过英伟达专有的NVLink芯片互连技术以600GB/s的速度连接。顺便提一下,这项技术最终将用于将英伟达GPU与英特尔未来的客户端CPU连接,作为两家芯片巨头合作的一部分。
GPU芯片能够提供高达1千万亿次的稀疏FP4算力,或约31万亿次单精度(FP32)算力,在原始性能方面与RTX 5070相当。是的,这款售价550美元的消费级显卡确实提供了两倍多的内存带宽,但由于只有12GB GDDR7内存,在模型和AI工作负载运行方面会受到相当限制。
与英伟达原始的Grace CPU不同,GB10的CPU芯片并未使用Arm的Neoverse V2核心。相反,该芯片是与联发科合作设计的,配备20个ARMv9.2核心。其中10个是Arm的高性能X925核心,其余基于效率优化的Cortex A725核心。
与苹果M系列和AMD Strix Halo SoC类似,GB10的CPU和GPU都由LPDDR5x公共内存池供电。这种计算和内存的紧密耦合使得这些芯片制造商能够实现比当今传统PC平台高两倍以上的带宽。对于GB10,英伟达声称内存带宽为273GB/s。
扩展能力
在Spark上你会发现一个其他系统没有的功能:高速网络连接。就像英伟达的数据中心平台一样,Spark的GB10配备了集成的ConnectX-7网络卡,背面有一对QSFP以太网端口。
虽然理论上可以用于高速网络连接,但这些端口实际上是为连接两台DGX Spark而设计的,有效地将其微调和推理能力翻倍。
在这种配置下,英伟达表示用户能够在4位精度下对高达4050亿参数的模型进行推理。
来自英伟达、宏碁、华硕、戴尔科技、技嘉、慧与、联想和微星的DGX Spark系统将于10月15日开始销售。
Q&A
Q1:DGX Spark工作站的主要配置是什么?
A:DGX Spark搭载GB10芯片,提供1千万亿次稀疏FP4算力或31万亿次单精度算力,配备128GB统一系统内存、200Gbps高速网络连接和273GB/s内存带宽,大约NUC尺寸,预装定制版Ubuntu Linux系统。
Q2:DGX Spark与消费级显卡相比有什么优势?
A:虽然GPU性能与RTX 5070相当,但DGX Spark拥有128GB统一内存,而RTX 5070仅有12GB GDDR7。这使得DGX Spark能够运行高达2000亿参数的大模型,满足AI和机器学习研究的内存需求。
Q3:DGX Spark支持多机连接吗?
A:支持。通过集成的ConnectX-7网络卡和背面的QSFP以太网端口,可以连接两台DGX Spark,有效翻倍其微调和推理能力。在双机配置下,用户可以在4位精度下对高达4050亿参数的模型进行推理。
好文章,需要你的鼓励
AI颠覆预计将在2026年持续,推动企业适应不断演进的技术并扩大规模。国际奥委会、Moderna和Sportradar的领导者在纽约路透社峰会上分享了他们的AI策略。讨论焦点包括自建AI与购买第三方资源的选择,AI在内部流程优化和外部产品开发中的应用,以及小型模型在日常应用中的潜力。专家建议,企业应将AI建设融入企业文化,以创新而非成本节约为驱动力。
字节跳动等机构联合发布GAR技术,让AI能同时理解图像的全局和局部信息,实现对多个区域间复杂关系的准确分析。该技术通过RoI对齐特征重放方法,在保持全局视野的同时提取精确细节,在多项测试中表现出色,甚至在某些指标上超越了体积更大的模型,为AI视觉理解能力带来重要突破。
Spotify在新西兰测试推出AI提示播放列表功能,用户可通过文字描述需求让AI根据指令和听歌历史生成个性化播放列表。该功能允许用户设置定期刷新,相当于创建可控制算法的每周发现播放列表。这是Spotify赋予用户更多控制权努力的一部分,此前其AI DJ功能也增加了语音提示选项,反映了各平台让用户更好控制算法推荐的趋势。
Inclusion AI团队推出首个开源万亿参数思维模型Ring-1T,通过IcePop、C3PO++和ASystem三项核心技术突破,解决了超大规模强化学习训练的稳定性和效率难题。该模型在AIME-2025获得93.4分,IMO-2025达到银牌水平,CodeForces获得2088分,展现出卓越的数学推理和编程能力,为AI推理能力发展树立了新的里程碑。