作为 AI 领域从硬件到软件再到开发者工具的全栈领导者,Nvidia 必须能够适应新兴技术所渗透的各种环境。
在本周于圣何塞举行的 Nvidia GPU 技术大会 2025 上,公司联合创始人兼首席执行官黄仁勋表示,这家加速计算领导者计划实现这一目标。
黄仁勋的演讲中涉及了许多内容,包括 Nvidia 的 "Blackwell" B300 GPU 及其即将推出的继任者 "Rubin" 系列加速器,以及网络等关键组件,The Next Platform 已经对此进行了讨论。同时还推出了许多面向企业、边缘计算和物理 AI 领域的产品。
他说:"云服务提供商当然喜欢我们的前沿技术,他们喜欢我们拥有全栈解决方案,因为加速计算不仅仅是芯片的问题。它不仅仅是芯片和库、编程模型的问题,而是芯片、编程模型以及其上运行的大量软件。整个技术栈都非常复杂。他们也喜欢 Nvidia CUDA 开发者是 CSP 客户,因为归根结底,他们是为全世界构建基础设施。"
尽管 AI 在云端获得了发展动力,但它并不会局限于此。
黄仁勋表示:"现在我们要将 AI 推广到世界其他地方,而其他地方有不同的系统配置、运行环境差异、领域特定库差异和使用差异。当 AI 应用于企业 IT、制造业、机器人和自动驾驶汽车,甚至是那些正在启动 GPU 云的公司时,他们都有自己的需求。"
他说 AI 和机器学习已经重新定义了从处理器到操作系统再到应用程序的计算栈,企业运行和编排它们的方式也将有所不同。企业员工不再是检索并读取所需数据,而是向 AI 系统提问并获得答案。
黄仁勋说:"这就是未来企业 IT 的工作方式。我们将拥有 AI 代理作为数字劳动力的一部分。全球有 10 亿知识工作者,可能会有 100 亿数字工作者与我们并肩工作。AI 代理将无处不在。它们的运行方式、企业的运行方式以及我们如何运行它们都将发生根本性变化。因此我们需要一种新型计算机。"
这通常从硬件开始,在本例中是两款个人 AI 超级计算机:DGX Spark (前身为 Project DIGITS) 和 DGX Station,这是由 Blackwell 驱动的桌面系统,可用于推理等任务,可在本地或 Nvidia 的 DGX Cloud 或其他加速云环境中运行。DGX Spark 由 GB10 Grace Blackwell Superchip 驱动,Nvidia 表示它将为 AI 微调和推理提供每秒高达千万亿次的运算能力。
DGX Station 是一款更大的桌面设备,由 GB300 Grace-Blackwell Ultra Desktop Superchip 驱动,包含 784 GB 的连贯内存空间、Nvidia 的 ConnectX-8 SuperNIC、其 AI Enterprise 软件平台,以及对供应商 NIM AI 微服务的访问权限。
这些系统不仅为企业用户提供了运行 AI 工作负载的新工具,还为进入 AI 推理模型时代开辟了另一条途径。这比 AI 代理在解决问题的能力上更进一步,远远超越了 ChatGPT 和其他 AI 聊天机器人的提示和回复性质。
黄仁勋说:"我们现在拥有可以推理的 AI,这本质上是关于逐步分解问题。现在我们拥有可以一步一步推理的 AI,使用了思维链、N 中最佳、一致性检查、路径规划等各种不同技术。我们现在拥有可以推理的 AI。"
Nvidia 在 1 月的消费电子展上推出了 Llama Nemotron 高级代理 AI 模型和 Cosmos Nemotron 视觉语言模型,将它们作为 NIM 微服务提供给开发者,用于构建能够理解语言和世界并作出适当响应的 AI 代理。
在 GTC 大会上,Nvidia 推出了一系列开放的 Llama Nemotron 模型,具有改进的推理能力,可用于多步数学运算、编码、决策制定以及遵循指令。根据 Nvidia 企业生成式 AI 软件副总裁 Kari Briski 的说法,该公司还提供数据集 (包含 600 亿个 Nvidia 生成的合成数据集 token) 和技术,以进一步帮助开发者采用这些模型。
Briski 在主题演讲前的新闻简报中表示:"就像人类一样,代理需要理解上下文才能分解复杂的请求、理解用户意图并实时适应。"
推理功能可以开启和关闭,Nemotron 模型有三种规模,Nano 是最小的,在 PC 和边缘设备上提供最高的准确性。Super 模型在单个 GPU 上提供高准确性和吞吐量,而 Ultra 模型将在多个 GPU 上运行。Nano 和 Super 模型现已推出,Ultra 即将推出。
Nvidia AI Enterprise 软件平台的新增功能之一是 AI-Q Blueprint,这是另一个基于 NIM 的产品,允许企业将专有数据连接到推理 AI 代理。该开放软件与 Nvidia 的 NeMo Retriever 工具集成,可以查询文本、图像和视频等多种数据类型,并允许供应商的加速计算与第三方存储平台和软件以及 Llama Nemotron 模型协同工作。
Briski 说:"对于互联代理团队,该蓝图提供了对代理活动的可观察性和透明度,允许开发者随时间改进代理。开发者可以提高代理准确性,将这些任务的完成时间从数小时缩短到分钟。"
Nvidia 的 AI Data Platform 是一个企业基础设施参考设计,包括通过 AI-Q Blueprint 构建的 AI 查询代理。
在主题演讲中,黄仁勋还谈到了物理 AI,这个领域需要将 AI 集成到物理系统中,使其能够感知和反应真实世界,他表示这可能成为 AI 市场中最大的领域。
黄仁勋说:"理解物理世界的 AI,比如摩擦力和惯性、因果关系、物体永续性,理解物理世界、三维世界的能力。这将开启物理 AI 的新时代,并推动机器人技术的发展。"
在这个领域有许多公告,包括 Nvidia 面向机器人和自动驾驶汽车的 AI 数据集。开发者可以使用该数据集进行预训练、测试和验证模型,或用于后训练和微调基础模型。它包括该公司用于其 Cosmos 世界模型开发平台以及 Drive AV 软件、Isaac AI 机器人开发平台和智慧城市 Metropolis 框架的真实和合成数据。
第一个迭代版本现已在 Hugging Face 上提供,目前包含 15 TB 的机器人训练数据,即将支持自动驾驶车辆开发。
黄仁勋还提到了 Nvidia 的 Isaac GROOT N1,这是一个使用真实和合成数据训练的开放基础模型,用于人形机器人,是去年 GTC 大会上推出的 Project GROOT 的成果。
好文章,需要你的鼓励
铠侠正在测试最新的UFS v4.1嵌入式闪存芯片,专为智能手机和平板电脑设计,可提供更快的下载速度和更流畅的设备端AI应用性能。该芯片采用218层TLC 3D NAND技术,提供256GB、512GB和1TB容量选择。相比v4.0产品,随机写入性能提升约30%,随机读取性能提升35-45%,同时功耗效率改善15-20%。新标准还增加了主机发起碎片整理、增强异常处理等功能特性。
上海AI实验室团队提出创新的异步拍摄方案,仅用普通相机就能实现高速4D重建。该方法通过错开相机启动时间将有效帧率从25FPS提升至100-200FPS,并结合视频扩散模型修复稀疏视角导致的重建伪影。实验结果显示,新方法在处理快速运动场景时显著优于现有技术,为低成本高质量4D内容创作开辟新路径。
谷歌在伦敦云峰会上发布Firebase Studio更新,新增Gemini命令行界面集成、模型上下文协议支持和"代理模式"。代理模式提供三种AI协作层次:对话式"询问"模式用于头脑风暴,人机协作代理需开发者确认代码变更,以及几乎完全自主的代理模式。尽管谷歌声称已有数百万应用使用该平台,但目前仍需精心设计提示词,非工程师用户还无法直接创建成熟应用。
上海AI实验室联手复旦大学提出了POLAR方法,这是一种革命性的奖励模型训练技术。通过让AI学会识别不同策略间的差异而非死记评分标准,POLAR在多项任务上实现了显著提升,7B参数模型超越72B现有最强基线,为AI对齐问题提供了全新解决思路。