英伟达最小的Grace-Blackwell工作站本周终于上市,距离这家GPU巨头在CES上首次展示这款AI迷你PC(当时称为Project Digits)已近一年时间。
现在重新命名为DGX Spark,这款大约NUC尺寸的系统搭配了一颗Blackwell GPU,能够提供高达1千万亿次的稀疏FP4性能,配备128GB统一系统内存和200Gbps高速网络连接。
虽然体积小巧,但价格并不便宜,起售价约3000美元。不过,它的目标用户并非主流PC购买者。这些系统还将通过OEM合作伙伴以各种品牌名称销售,甚至不会预装Windows系统。这并非Copilot+ PC,而是搭载定制版Ubuntu Linux系统。
Spark实际上是为AI和机器人开发者、数据科学家以及机器学习研究人员设计的,他们需要一个成本较低但仍能运行高达2000亿参数模型的工作站平台。
这类工作负载对内存需求极大,在消费级显卡上运行并不现实。高端工作站显卡如RTX Pro 6000可配备高达96GB的高速GDDR7内存,但单卡价格就超过8000美元,还不包括其他平台成本。
在发布时,DGX Spark在技术上是英伟达内存容量最大的工作站GPU,至少在基于Blackwell Ultra的DGX Station发布之前是如此。
超级芯片的小型化
DGX Spark采用GB10片上系统芯片,本质上是为旗舰NVL72机架系统提供动力的Grace-Blackwell超级芯片的小型化版本。
正如我们在Hot Chips大会上探讨的,GB10由两个计算芯片组成,通过英伟达专有的NVLink芯片互连技术以600GB/s的速度连接。顺便提一下,这项技术最终将用于将英伟达GPU与英特尔未来的客户端CPU连接,作为两家芯片巨头合作的一部分。
GPU芯片能够提供高达1千万亿次的稀疏FP4算力,或约31万亿次单精度(FP32)算力,在原始性能方面与RTX 5070相当。是的,这款售价550美元的消费级显卡确实提供了两倍多的内存带宽,但由于只有12GB GDDR7内存,在模型和AI工作负载运行方面会受到相当限制。
与英伟达原始的Grace CPU不同,GB10的CPU芯片并未使用Arm的Neoverse V2核心。相反,该芯片是与联发科合作设计的,配备20个ARMv9.2核心。其中10个是Arm的高性能X925核心,其余基于效率优化的Cortex A725核心。
与苹果M系列和AMD Strix Halo SoC类似,GB10的CPU和GPU都由LPDDR5x公共内存池供电。这种计算和内存的紧密耦合使得这些芯片制造商能够实现比当今传统PC平台高两倍以上的带宽。对于GB10,英伟达声称内存带宽为273GB/s。
扩展能力
在Spark上你会发现一个其他系统没有的功能:高速网络连接。就像英伟达的数据中心平台一样,Spark的GB10配备了集成的ConnectX-7网络卡,背面有一对QSFP以太网端口。
虽然理论上可以用于高速网络连接,但这些端口实际上是为连接两台DGX Spark而设计的,有效地将其微调和推理能力翻倍。
在这种配置下,英伟达表示用户能够在4位精度下对高达4050亿参数的模型进行推理。
来自英伟达、宏碁、华硕、戴尔科技、技嘉、慧与、联想和微星的DGX Spark系统将于10月15日开始销售。
Q&A
Q1:DGX Spark工作站的主要配置是什么?
A:DGX Spark搭载GB10芯片,提供1千万亿次稀疏FP4算力或31万亿次单精度算力,配备128GB统一系统内存、200Gbps高速网络连接和273GB/s内存带宽,大约NUC尺寸,预装定制版Ubuntu Linux系统。
Q2:DGX Spark与消费级显卡相比有什么优势?
A:虽然GPU性能与RTX 5070相当,但DGX Spark拥有128GB统一内存,而RTX 5070仅有12GB GDDR7。这使得DGX Spark能够运行高达2000亿参数的大模型,满足AI和机器学习研究的内存需求。
Q3:DGX Spark支持多机连接吗?
A:支持。通过集成的ConnectX-7网络卡和背面的QSFP以太网端口,可以连接两台DGX Spark,有效翻倍其微调和推理能力。在双机配置下,用户可以在4位精度下对高达4050亿参数的模型进行推理。
好文章,需要你的鼓励
在迪拜Gitex 2025大会上,阿联酋成为全球AI领导者的雄心备受关注。微软正帮助该地区组织从AI实验阶段转向实际应用,通过三重方法提供AI助手、协同AI代理和AI战略顾问。微软已在阿联酋大举投资数据中心,去年培训了10万名政府员工,计划到2027年培训100万学习者。阿联酋任命了全球首位AI部长,各部门都配备了首席AI官。微软与政府机构和企业合作,在公民服务和金融流程等领域实现AI的实际应用,构建全面的AI生态系统。
浙江大学等高校研究团队开发的VolSplat系统,通过"体素对齐"替代传统"像素对齐"方法,实现了快速高质量的3D场景重建。该技术仅需6张普通照片即可生成精确3D模型,在RealEstate10K等标准数据集上显著超越现有方法,为机器人导航、增强现实、建筑设计等领域提供了新的技术选择,代表了3D重建领域从二维思维向三维思维的重要转变。
苹果与俄亥俄州立大学研究人员发布名为FS-DFM的新模型,采用少步离散流匹配技术,仅需8轮快速优化即可生成完整长文本,效果媲美需要上千步骤的扩散模型。该模型通过三步训练法:处理不同优化预算、使用教师模型指导、调整迭代机制来实现突破。测试显示,参数量仅1.7亿至17亿的FS-DFM变体在困惑度和熵值指标上均优于70-80亿参数的大型扩散模型。
武汉大学团队与字节跳动公司合作,提出MAPO混合优势策略优化方法,解决AI训练中的"一刀切"问题。该方法能根据问题难度动态调整评分策略,避免传统方法中的优势反转和优势镜像问题。通过轨迹确定性判断和权重动态调整,在几何推理和情感识别任务上都取得显著提升,为AI自适应学习提供新思路。