具有 PCIe 连接加速器的传统异构平台要求用户遵循复杂的编程模型,该模型涉及手动管理设备内存分配以及与主机之间的数据传输。NVIDIA Grace Hopper Superchip 平台是异构的,易于编程, NVIDIA 致力于让所有开发人员和应用程序都可以使用它,而不依赖于选择的编程语言。Grace Hopper Superchip 和平台的构建都使您能够为手头的任务选择合适的语言, NVIDIA CUDA LLVM Compiler API 使您能够将首选的编程语言带到 CUDA 平台,其代码生成质量和优化水平与 NVIDIA 编译器和工具相同。NVIDIA 为 CUDA 平台提供的语言(图 3 )包括 ISO C ++、 ISO Fortran 和 Python 等加速标准语言。该平台还支持基于指令的编程模型,如 OpenACC 、 OpenMP 、 CUDA C ++和 CUDA Fortran 。NVIDIA HPC SDK 支持所有这些方法,以及一组用于评测和调试的加速库和工具。NVIDIA 是 ISO C ++和 ISO Fortran 编程语言社区的成员,这些社区使符合 ISO C ++和 ISOFortran 标准的应用程序能够在 NVIDIA CPU 和 NVIDIA GPU 上运行,无需任何语言扩展。有关在 GPU 上运行符合 ISO 的应用程序的更多信息,请参阅 Multi-GPU Programming with Standard Parallel C++ 和 Using Fortran Standard Parallel Programming For GPU Acceleration 。该技术严重依赖于 NVIDIA NVLink-C2C 和 NVIDIA 统一虚拟内存提供的硬件加速内存一致性。如图 4 所示,在没有 ATS 的传统 PCIe 连接 x86 + Hopper 系统中, CPU 和 GPU 具有独立的每个进程页表,系统分配的内存不能直接从 GPU 访问。当程序使用系统分配器分配内存,但 GPU 页面表中的页面条目不可用时,从 GPU 线程访问内存失败。在基于 NVIDIA Grace Hopper Superchip 的系统中, ATS 使 CPU 和 GPU 能够共享单个进程页表,使所有 CPU 和 GPU 线程能够访问所有系统分配的内存,这些内存可以驻留在物理 CPU 或 GPU 内存上。所有 CPU 和 GPU 线程都可以访问 CPU heap 、 CPU 线程堆栈、全局变量、内存映射文件和进程间内存。NVIDIA NVLink-C2C 硬件一致性使 Grace CPU 能够以缓存线粒度缓存 GPU 内存,并使 GPU CPU 能够访问彼此的内存而无需页面迁移。NVLink-C2C 还加速了系统分配内存上 CPU 和 GPU 支持的所有原子操作。Scoped atomic operations 完全受支持,并支持系统中所有线程之间的细粒度和可扩展同步。根据 CPU 或 GPU 线程是否首先访问系统分配的内存,运行时在 LPDDR5X 或 HBM3 上第一次接触时使用物理内存备份系统分配的存储器。从操作系统的角度来看, Grace CPU 和 Hopper GPU 只是两个独立的 NUMA 节点。系统分配的内存是可迁移的,因此运行时可以更改其物理内存支持,以提高应用程序性能或处理内存压力。对于基于 PCIe 的平台(如 x86 或 Arm ),您可以使用与 NVIDIA Grace Hopper 模型相同的统一内存编程模型。这最终将通过 Heterogeneous Memory Management (HMM) feature 实现,它是 Linux 内核功能和 NVIDIA 驱动程序功能的组合,使用软件模拟 CPU 和 GPU 之间的内存一致性。在 NVIDIA Grace Hopper 上,这些应用程序可以从 NVLink-C2C 提供的更高带宽、更低延迟、更高原子吞吐量和硬件加速(无需任何软件更改)中获益。
超级芯片架构特征
以下是 NVIDIA Grace Hopper 架构的主要创新:
NVIDIA Grace CPU
NVIDIA Hopper GPU
NVLink-C2C
NVLink 交换机系统
扩展 GPU 存储器
NVIDIA Grace CPU
随着 GPU 的并行计算能力在每一代中持续增长三倍,快速高效的 CPU 对于防止现代工作负载中的串行和仅 CPU 部分主宰性能至关重要。NVIDIA Grace CPU 是 first NVIDIA data center CPU ,它是 built from the ground up to create HPC and AI superchips 。Grace 提供多达 72 个 Arm Neoverse V2 CPU 内核和 Armv9.0-A ISA ,每个内核提供 4 × 128 位宽的 SIMD 单元,支持 Arm 的 Scalable Vector Extensions 2 (SVE2) SIMD 指令集。NVIDIA Grace 提供领先的每线程性能,同时提供比传统 CPU 更高的能效。72 个 CPU 内核在 SPECrate 2017_int_base 上的得分高达 370 (估计),确保高性能以满足 HPC 和 AI 异构工作负载的需求。机器学习和数据科学中的现代 GPU 工作负载需要访问大量内存。通常,这些工作负载必须使用多个 GPU 将数据集存储在 HBM 内存中。NVIDIA Grace CPU 提供高达 512 GB 的 LPDDR5X 内存,可在内存容量、能效和性能之间实现最佳平衡。它提供高达 546 GB / s 的 LPDDR5X 内存带宽, NVLink-C2C 使 GPU 能够以 900 GB / s 的总带宽访问该内存。单个 NVIDIA Grace Hopper 超级芯片为 Hopper GPU 提供了总计 608 GB 的快速可访问内存,几乎是 DGX-A100-80 中可用的慢速内存总量;上一代的 8- GPU 系统。这是通过图 7 所示的 NVIDIA SCF 实现的,这是一种网状结构和分布式缓存,提供高达 3.2 TB / s 的总二等分带宽,以实现 CPU 内核、内存、系统 I / O 和 NVLink-C2C 的全部性能。CPU 核心和 SCF 缓存分区( SCC )分布在整个网格中,而缓存交换节点( CSN )通过结构路由数据,并充当 CPU 核心、缓存存储器和系统其余部分之间的接口。