智能体AI的快速普及正迫使芯片和系统架构师从头开始重新思考数据中心的设计方式。过去以GPU吞吐量为核心的优化思路已不再适用,如今的系统需要CPU承担长时间推理循环的编排任务,同时管理上下文、内存和数据移动,而GPU及加速器则专注于最繁重的数值计算。这一转变仅是整体架构拼图的一部分。
CPU角色的根本性转变
Arm云AI业务部门全球云与AI基础设施芯片负责人Satadal Bhattacharjee表示:"智能体AI的兴起正在重塑对CPU的需求。随着AI系统日趋复杂,CPU正逐步成为持续运行的智能循环中的编排与执行引擎,负责管理上下文、工具调用、内存移动、安全边界以及加速器的利用率。"
Arm预测,智能体AI将要求数据中心在相同功耗范围内提供高达四倍的CPU核心密度,但这并不意味着加速器的重要性有所下降。Bhattacharjee强调:"这凸显了一个关键现实:加速器性能越来越依赖于整个系统的效率、响应速度和平衡性。"
与此同时,智能体工作负载带来了更难以预测的控制流、不规则的内存访问模式、同步需求以及更高的I/O强度。Bhattacharjee指出:"要避免系统级停顿,就需要更紧密的CPU-加速器耦合、更高效的数据移动、更高带宽的内存访问,以及能够支持一致性、隔离性和扩展性的系统互联架构。PCIe、CXL、芯片间相干互联以及先进的互联IP等技术,为系统设计师提供了在灵活性、带宽、延迟和效率之间灵活权衡的新途径。"
从数据加载到数据编排
西门子EDA产品负责人Sathishkumar Balasubramanian对这一变化有着更为直观的描述:"过去谈到AI,GPU主要用于矩阵运算和数值计算,但这一切正在改变。随着智能体工作流的兴起,CPU的角色从数据加载器转变为数据编排器。整个编排层由CPU负责处理。Intel的需求之所以在上升,正是因为人们意识到需要CPU来完成大量智能体工作流任务,而只在必要时才调用GPU。数据编排将成为新的核心能力,我们正在从数据卸载转向数据编排,这就是新型计算集群的本质。"
他进一步指出,以往GPU和CPU分处不同机架,但这种布局带来了严重的内存访问延迟问题。"因此,现在处理器开发商正在尝试将GPU和CPU放置在同一机架中,就像服务器厂商过去所做的那样。"
这一趋势在近期多项重大产品发布中清晰可见,包括英特尔代号为"Panther Lake"的Core Ultra Series 3移动处理器、搭载Arm CPU的英伟达RTX Spark PC芯片、苹果的Fusion架构、AMD的APU,以及英伟达的Vera Rubin平台等。
从历史角度来看,英特尔早在2010年1月便推出了集成CPU与GPU的SoC,但如今两者的交互方式已发生根本性变化。早期SoC将集成GPU视为辅助组件,而今天面向智能体AI的SoC则专为持续、异步、多步骤执行循环而设计,衍生出过去SoC设计中不曾存在的全新架构创新。
Balasubramanian说:"它们被集成在同一个芯片上,共享内存协议和带宽,因此可以访问统一内存。延迟大幅降低,CPU和GPU两端的工作量都显著增加。整个架构正在发生根本性变革。即使是PC也将朝这个方向发展,配备更强大的GPU和CPU,因为你需要在本地全天候运行自己的智能体,这对本地计算和数据中心都提出了很高的要求。"
边缘计算的新机遇
Quadric首席营销官Steve Roddy则从更宏观的视角审视这一变化:"智能体AI真正的冲击,将体现在云端与边缘计算的整体格局变化上,AI服务公司将首当其冲。以当前Token需求的增长速度,即便超大规模云厂商每年投入1万亿美元资本支出,数据中心的计算供给也难以跟上需求。这促使业界越来越关注将更多生成式AI算力下沉到新一代AI边缘设备。"
Roddy认为,市场需要一种售价低于1000美元、功耗与普通家电或台式电脑相当的专用智能体Token服务器。"不久的将来,我们将看到PetaOp级推理能力出现在适合家用和办公的被动风冷设备中。如果能有1亿台这样的智能体Token引擎分布在千家万户,其集体算力将超过Zetta-Op级推理计算,而无需大规模数据中心建设或新建发电站。"
他强调,实现这一新型计算范式的关键在于两点:一是AI模型向去中心化计算模型的适配,使对话型AI和开发者的智能体工作流都能将计算分配在大规模集中参数模型与本地1000亿以上参数模型之间;二是专为边缘设计的、高能效、完全可编程的推理处理能力,而非将GPU改作他用。
延迟压力与互联架构
Synopsys PCIe与CXL产品管理总监Antonio Costa指出,过去几年间,数据中心设计几乎完全以GPU为中心,用于大语言模型训练和云端推理。在那个阶段,CPU负责将数据送入GPU,PCIe作为传输通道,带宽是最重要的指标,延迟并不关键。
"但智能体AI的引入改变了一切。CPU不再仅仅是数据馈送者,而是整个系统的编排者。CPU需要与文件、网络、磁盘进行大量交互,而GPU则扮演'大脑'的角色,根据CPU提供的指令决定下一步行动,CPU则负责执行这些行动。"
他以创建PPT为例进行说明:需要打开应用程序,调用大语言模型获取内容,再将数据写入文档——这是一个高度以CPU为中心的操作流程。
Costa表示,延迟在智能体AI场景中变得至关重要。"如果响应太慢,你的智能体就会显得迟钝。PCIe在延迟方面具有良好的适配性,而且所需的连接数量正在急剧增加。我们看到有客户设计的芯片需要多达100条PCIe通道,相比AI训练时的16条通道,需求量至少增加了5倍。"
智能体AI SoC的验证挑战
验证层面的挑战同样不容忽视。Balasubramanian指出:"单个智能体AI芯片中存在两种不同的计算范式,需要验证它们能够协同工作、不产生冲突。内存架构如何规划,数据如何读取,指令如何排队,都需要进行深入验证。"
他进一步分析称,验证工作涉及三个层面:
第一,功能验证。每当硬件架构发生重大变化,就需要同步开发软件和硬件。"这意味着需要模拟和FPGA原型验证。"
第二,性能验证。"需要确保内存到处理器再到GPU的整个链路能够满足高需求场景的要求。"
第三,3D-IC物理效应的处理。"未来的芯片都将采用3D-IC堆叠方式。高速切换总线会带来怎样的热图分布?堆叠在上方的HBM会不会因过热而损坏晶圆?这些都是必须解决的问题。"
此外,随着业界对安全风险的认知不断深化,硬件安全设计的需求也在迅速升温。"对于智能体来说,如何在硬件层面实现受保护的访问控制是一大挑战。内置的安全监控器和可靠性监控器变得不可或缺,确保智能体不会执行不受信任的代码。复杂架构使得安全与硬件监控的难度大幅提升。"
结语
Arm的Bhattacharjee总结道:"AI基础设施正从以加速器为中心的服务器,向异构机架级系统演进,其中针对智能体工作流各个阶段优化的专用系统将各司其职、协同运作。"
智能体AI正在将数据中心转变为高度集成、持续编排的系统,CPU驱动的工作流、CPU-GPU混合架构以及硬件级安全,都需要作为一个整体进行工程设计和验证。对于芯片架构师而言,真正的竞争力将取决于他们能否将计算、内存、封装和验证流程协同设计,在快速演进的智能体工作负载面前,既不牺牲可靠性,也不失去对系统的掌控力。
Q&A
Q1:智能体AI为什么会让CPU重新变得重要?
A:在传统AI架构中,CPU主要负责将数据送入GPU,角色相对被动。但智能体AI需要复杂的编排、工具调用和推理循环,CPU必须持续与文件系统、网络、存储设备交互,并协调GPU的工作。Arm预测,智能体AI将要求数据中心在相同功耗范围内提供高达四倍的CPU核心密度。因此,CPU正从"数据加载器"转变为整个系统的"编排引擎",在智能体AI架构中重新占据核心地位。
Q2:智能体AI对PCIe互联提出了哪些新要求?
A:过去AI训练场景下,PCIe主要关注带宽,延迟并非关键指标。但在智能体AI中,CPU需要频繁与GPU、网卡、SSD等设备交互,响应速度直接影响智能体的执行效率,因此延迟变得至关重要。此外,所需的PCIe连接数量也大幅增加——部分客户的芯片设计已需要多达100条PCIe通道,相比AI训练时的16条,需求至少增加了5倍。
Q3:验证智能体AI芯片面临哪些主要挑战?
A:智能体AI芯片将CPU和GPU集成在同一芯片中,验证难度显著提升,主要体现在三个方面:一是功能验证,需通过模拟和FPGA原型确保CPU与GPU协同工作无冲突;二是性能验证,需确保内存、处理器和GPU之间的数据链路满足高并发需求;三是3D-IC物理效应,需评估堆叠芯片在高负载下的热分布是否会导致硬件损坏。此外,硬件层面的安全监控也成为不可忽视的新挑战。
好文章,需要你的鼓励
火箭实验室(Rocket Lab)宣布计划以现金加股票方式,斥资80亿美元收购主要卫星运营商铱星通信(Iridium Communications),交易预计于2027年中完成。铱星目前运营着由66颗活跃低轨卫星组成的星座网络,拥有约255万活跃用户,2024年营收达8.717亿美元。收购完成后,Rocket Lab计划借助其新型重型运载火箭Neutron及Lightning卫星平台,扩大铱星星座规模,开拓未被覆盖的市场并降低发射成本。
香港大学与武汉大学联合开发的EO-WM系统,将地球观测卫星图像预测重新定义为天气驱动的世界建模问题,通过把气象信号拆解为气候基线、天气异常和累积压力三层,显著提升了对极端干旱和热浪事件下植被退化的预测准确性。
音乐流媒体平台Tidal宣布,将于7月中旬启用自动化工具,对完全由AI生成的音乐添加"AI"标识,并移除具有欺诈性质的曲目。平台还将取消AI生成音乐的版税资格,仅向真人创作、演唱的原创音乐开放变现渠道。此外,Tidal明确将高频异常上传、干扰真实艺术家等行为列为欺诈活动。Deezer、Spotify等竞争对手此前已推出类似检测机制,流媒体行业正加速构建AI内容治理体系。
腾讯等机构提出ViQ框架,通过两阶段渐进量化训练,让离散视觉编码在多模态理解和图像重建上同时追平连续特征编码器,训练速度最高提升70%。