在 AI 基础设施领域,特别是在数据中心方面,Nvidia 无疑是无可争议的冠军。然而在新兴的 AI PC 领域,情况并非如此明朗。
2024 年初,很明显 Windows 的未来将融入 AI 增强功能和体验。主要特性包括实时字幕和翻译、MS Paint 中的图像生成,以及后续推出的略显争议的 Recall 功能 (通过定期截屏来追踪过往活动)。
目前,这些新功能仅限于所谓的 Copilot+ PC,而要获得这一认证,计算机必须满足 Microsoft 的最低性能要求。
根据 Microsoft 的文档,Copilot+ PC 需要一个capable 40 TOPS 以上 (每秒可进行超过 40 万亿次 INT8 AI 运算) 的神经处理单元 (NPU),同时配备至少 16GB 内存和 256GB 存储。在功能推出之初,只有 Qualcomm 的处理器能够满足 Redmond 的 NPU 要求,因此只有搭载该芯片的 PC 才能作为 Copilot+ PC 运行上述 AI 增强功能。
此后,除了 Qualcomm 符合要求的 Arm 兼容 X 芯片外,Intel 的 Lunar Lake 和 AMD 的 Strix Point 及 Halo 处理器系列也获得了 Copilot+ PC 认证。
然而,即使是本月在 CES 2025 上发布的售价 2,000 美元、具有超过 3.3 petaFLOPS AI 算力 (FP4) 的 Nvidia RTX 5090,对 Redmond 来说仍然不够格。不管你的 GPU 能产生多少 FLOPS 或 TOPS,目前在 Microsoft 眼中,只有 NPU 才算数。
Nvidia 在 AI PC 领域并非无所作为
虽然 AI PC 的营销炒作多围绕 Microsoft 的 Copilot+ 规范展开,这也可以理解。目前几乎所有 PC 都运行 Windows。Microsoft 在 PC 软件生态系统的主导地位使其对 NPU 的执着难以忽视,但这并不意味着 Nvidia 一直在数据中心、工作站图形和独立游戏 GPU 领域安于现状。
事实上,据 Nvidia Windows AI 产品营销负责人 Jesse Clayton 告诉 The Register,Nvidia 多年来一直致力于将 AI 功能引入 PC。
"我们在 2018 年就开始了 PC 上的 AI 运动,当时我们推出了首款带有专用 AI 硬件——tensor 核心的 GeForce GPU 和 Nvidia GPU,"Clayton 说。"随后,我们宣布了首个广泛部署的 PC AI——DLSS,它在游戏中使用 AI 生成像素和帧来提高帧率。"
自那以后,GPU 巨头推出了 RTX AI Toolkit (用于优化和部署 Windows PC 上的生成式 AI 模型的工具和软件套件),将 Nvidia Inference Microservices (NIMs) 引入 PC,并推出了多个蓝图,用于最先进的图像生成和将 PDF 转换为播客等功能。
"我们的策略是在能够提供有趣和差异化体验的地方,无论是通过增强游戏玩家的游戏体验,还是通过为创作者节省时间并减少重复性工作,"Clayton 解释道。
虽然一些体验直接面向终端用户(如 ChatRTX 和 RTX Voice),但 Nvidia 最近推出的许多软件都针对开发者社区。
竞争还是机遇?
无论如何评价 Copilot+ 的实际价值,Microsoft 已成功促使芯片设计商提供满足其要求的 NPU,同时为机器学习性能设立了新的最低标准。
考虑到 Windows 的市场份额以及 Microsoft 持续将 AI 融入其软件各个角落的努力,NPU 迟早会渗透到最基础的预算配置中。
此外,Microsoft 的 DirectML 和 ONNX Runtime 等框架的采用简化了应用程序开发,使代码能够在各种硬件上运行,只需最少的重新调整。
这对 Nvidia 构成了潜在挑战。这家硅谷巨头可能主导着独立显卡市场,但其 GPU 仅占所售 PC 的约 18%,绝大多数系统使用 Intel、AMD 或其他厂商的集成显卡。
有观点认为,在不久的将来,NPU 将成为开发 AI 应用的更大目标。虽然 Nvidia 不会被排除在对话之外,因为其加速器也支持许多流行的软件框架,但其部分竞争优势在于说服开发者使用其库和微服务,这些服务承诺更易集成、性能更高、效率更好。
最终,Clayton 表示,开发者将需要决定是要使用 NIMs 等工具快速将应用推向市场,还是要支持最大可能的安装基数。
但是,虽然 Nvidia 最终可能面临来自 NPU 的竞争——AI PC 仍是一个相当小众的市场——这并不一定都是坏消息。即使模型最终不在 Nvidia 的 PC 硬件上运行,它们很可能是在其 GPU 上训练的。
即便如此,Clayton 认为 NPU 并不适合所有工作负载。40 TOPS 是相当可观的算力,但如前所述,与高端显卡的性能相比仍相形见绌。
"NPU 适合运行轻量级 AI 工作负载,它们的能效很高,"他说。"GPU 则适合运行更具挑战性的 AI 用例,这也是我们一直推进和关注的方向。"
"对于简单无法在 PC 上运行的任务,你可以在云端的 GPU 上运行,那里有实际上无限的性能,"Clayton 补充道。
GPU 可能最终也会获得 Copilot+ 支持
已经有迹象表明,Microsoft 可能会扩展部分 Copilot+ 功能到 GPU,以支持更具计算挑战性的工作负载。
Microsoft 没有回应我们关于其利用 GPU 计划的问题。然而,在去年 6 月的一份声明中,Nvidia 表示正与 Microsoft 合作,通过 Windows Copilot Runtime 为小型语言模型 (SLMs) 添加 GPU 加速。
这项技术原计划在 2024 年底推出,但 Microsoft 自己的文档(最后更新于 12 月 5 日)并未提及 GPU,并特别指出其尚未推出的 Phi Silica 项目需要 NPU 来运行 SLM。
Clayton 拒绝就这项合作提供任何更新,称"最终由 Microsoft 决定在哪里运行哪些工作负载。"
Microsoft 是否以及何时选择接纳 GPU 用于本地 AI,可能最终取决于硬件的可用性。截至目前,配备独立显卡的 NPU Copilot+ PC 数量相当有限。
在台式机方面,情况更为棘手。虽然确实存在带有 NPU 的台式机芯片,但据我们所知,没有一款满足 Microsoft 40 TOPS 的性能要求。我们预计不久后会有更强大的 NPU 进入台式机芯片。只需 Intel 或 AMD 找到方法将其移动芯片中的 NPU 压缩到台式机形态即可。
好文章,需要你的鼓励
OpenAI首席执行官Sam Altman表示,鉴于投资者的AI炒作和大量资本支出,我们目前正处于AI泡沫中。他承认投资者对AI过度兴奋,但仍认为AI是长期以来最重要的技术。ChatGPT目前拥有7亿周活跃用户,是全球第五大网站。由于服务器容量不足,OpenAI无法发布已开发的更好模型,计划在不久的将来投资万亿美元建设数据中心。
阿里巴巴团队提出FantasyTalking2,通过创新的多专家协作框架TLPO解决音频驱动人像动画中动作自然度、唇同步和视觉质量的优化冲突问题。该方法构建智能评委Talking-Critic和41万样本数据集,训练三个专业模块分别优化不同维度,再通过时间步-层级自适应融合实现协调。实验显示全面超越现有技术,用户评价提升超12%。
英伟达推出新的小型语言模型Nemotron-Nano-9B-v2,拥有90亿参数,在同类基准测试中表现最佳。该模型采用Mamba-Transformer混合架构,支持多语言处理和代码生成,可在单个A10 GPU上运行。独特的可切换推理功能允许用户通过控制令牌开启或关闭AI推理过程,并可管理推理预算以平衡准确性和延迟。模型基于合成数据集训练,采用企业友好的开源许可协议,支持商业化使用。
UC Berkeley团队提出XQUANT技术,通过存储输入激活X而非传统KV缓存来突破AI推理的内存瓶颈。该方法能将内存使用量减少至1/7.7,升级版XQUANT-CL更可实现12.5倍节省,同时几乎不影响模型性能。研究针对现代AI模型特点进行优化,为在有限硬件资源下运行更强大AI模型提供了新思路。