英伟达最小的Grace-Blackwell工作站本周终于上市,距离这家GPU巨头在CES上首次展示这款AI迷你PC(当时称为Project Digits)已近一年时间。
现在重新命名为DGX Spark,这款大约NUC尺寸的系统搭配了一颗Blackwell GPU,能够提供高达1千万亿次的稀疏FP4性能,配备128GB统一系统内存和200Gbps高速网络连接。
虽然体积小巧,但价格并不便宜,起售价约3000美元。不过,它的目标用户并非主流PC购买者。这些系统还将通过OEM合作伙伴以各种品牌名称销售,甚至不会预装Windows系统。这并非Copilot+ PC,而是搭载定制版Ubuntu Linux系统。
Spark实际上是为AI和机器人开发者、数据科学家以及机器学习研究人员设计的,他们需要一个成本较低但仍能运行高达2000亿参数模型的工作站平台。
这类工作负载对内存需求极大,在消费级显卡上运行并不现实。高端工作站显卡如RTX Pro 6000可配备高达96GB的高速GDDR7内存,但单卡价格就超过8000美元,还不包括其他平台成本。
在发布时,DGX Spark在技术上是英伟达内存容量最大的工作站GPU,至少在基于Blackwell Ultra的DGX Station发布之前是如此。
超级芯片的小型化
DGX Spark采用GB10片上系统芯片,本质上是为旗舰NVL72机架系统提供动力的Grace-Blackwell超级芯片的小型化版本。
正如我们在Hot Chips大会上探讨的,GB10由两个计算芯片组成,通过英伟达专有的NVLink芯片互连技术以600GB/s的速度连接。顺便提一下,这项技术最终将用于将英伟达GPU与英特尔未来的客户端CPU连接,作为两家芯片巨头合作的一部分。
GPU芯片能够提供高达1千万亿次的稀疏FP4算力,或约31万亿次单精度(FP32)算力,在原始性能方面与RTX 5070相当。是的,这款售价550美元的消费级显卡确实提供了两倍多的内存带宽,但由于只有12GB GDDR7内存,在模型和AI工作负载运行方面会受到相当限制。
与英伟达原始的Grace CPU不同,GB10的CPU芯片并未使用Arm的Neoverse V2核心。相反,该芯片是与联发科合作设计的,配备20个ARMv9.2核心。其中10个是Arm的高性能X925核心,其余基于效率优化的Cortex A725核心。
与苹果M系列和AMD Strix Halo SoC类似,GB10的CPU和GPU都由LPDDR5x公共内存池供电。这种计算和内存的紧密耦合使得这些芯片制造商能够实现比当今传统PC平台高两倍以上的带宽。对于GB10,英伟达声称内存带宽为273GB/s。
扩展能力
在Spark上你会发现一个其他系统没有的功能:高速网络连接。就像英伟达的数据中心平台一样,Spark的GB10配备了集成的ConnectX-7网络卡,背面有一对QSFP以太网端口。
虽然理论上可以用于高速网络连接,但这些端口实际上是为连接两台DGX Spark而设计的,有效地将其微调和推理能力翻倍。
在这种配置下,英伟达表示用户能够在4位精度下对高达4050亿参数的模型进行推理。
来自英伟达、宏碁、华硕、戴尔科技、技嘉、慧与、联想和微星的DGX Spark系统将于10月15日开始销售。
Q&A
Q1:DGX Spark工作站的主要配置是什么?
A:DGX Spark搭载GB10芯片,提供1千万亿次稀疏FP4算力或31万亿次单精度算力,配备128GB统一系统内存、200Gbps高速网络连接和273GB/s内存带宽,大约NUC尺寸,预装定制版Ubuntu Linux系统。
Q2:DGX Spark与消费级显卡相比有什么优势?
A:虽然GPU性能与RTX 5070相当,但DGX Spark拥有128GB统一内存,而RTX 5070仅有12GB GDDR7。这使得DGX Spark能够运行高达2000亿参数的大模型,满足AI和机器学习研究的内存需求。
Q3:DGX Spark支持多机连接吗?
A:支持。通过集成的ConnectX-7网络卡和背面的QSFP以太网端口,可以连接两台DGX Spark,有效翻倍其微调和推理能力。在双机配置下,用户可以在4位精度下对高达4050亿参数的模型进行推理。
好文章,需要你的鼓励
在技术快速发展的时代,保护关键系统越来越依赖AI、自动化和行为分析。数据显示,2024年95%的数据泄露源于人为错误,64%的网络事件由员工失误造成。虽然先进的网络防御技术不断发展,但人类判断仍是最薄弱环节。网络韧性不仅是技术挑战,更是人员和战略需求。建立真正的韧性需要机器精确性与人类判断力的结合,将信任视为战略基础设施的关键要素,并将网络韧性提升为国家安全的核心组成部分。
南洋理工大学团队开发了Uni-MMMU基准测试,专门评估AI模型的理解与生成协同能力。该基准包含八个精心设计的任务,要求AI像人类一样"边看边想边画"来解决复杂问题。研究发现当前AI模型在这种协同任务上表现不平衡,生成能力是主要瓶颈,但协同工作确实能提升问题解决效果,为开发更智能的AI助手指明了方向。
自计算机诞生以来,人们就担心机器会背叛创造者。近期AI事件包括数据泄露、自主破坏行为和系统追求错误目标,暴露了当前安全控制的弱点。然而这种结果并非不可避免。AI由人类构建,用我们的数据训练,在我们设计的硬件上运行。人类主导权仍是决定因素,责任仍在我们。
360 AI Research团队发布的FG-CLIP 2是一个突破性的双语精细视觉语言对齐模型,能够同时处理中英文并进行精细的图像理解。该模型通过两阶段训练策略和多目标联合优化,在29个数据集的8类任务中均达到最先进性能,特别创新了文本内模态对比损失机制。团队还构建了首个中文多模态评测基准,填补了该领域空白,为智能商务、安防监控、医疗影像等应用开辟新可能。