谷歌将在未来数年内采用英特尔旗下多代至强(Xeon)处理器系列产品,这一合作关系于近日正式宣布。受此消息提振,英特尔股价当日收涨4.7%。
谷歌将把上述芯片部署于其云平台,用于支撑AI模型训练及通用计算负载。谷歌云目前已在部分通用型C4实例中使用英特尔最新一代中央处理器至强6(Xeon 6)。这些虚拟机在所有处理器核心全部激活时,最高主频可达3.9GHz;当仅启用高性能核心时,频率可进一步提升至4.2GHz。
谷歌C4实例采用的是至强6中一款名为"花岗岩急流"(Granite Rapids)的特定型号,该型号基于P-core架构设计,集成了多项面向AI场景的优化功能。其中一项关键优化是AMX指令集扩展,专门针对AI模型在推理过程中频繁执行的"乘累加"运算进行加速。
英特尔还推出了至强6的另一系列产品"塞拉森林"(Sierra Forest),该系列采用E-core架构,在适当降低峰值性能的同时,显著提升了能效表现。
今年3月,英特尔发布了其迄今最先进的E-core服务器处理器,搭载288个核心,比最大规格的Granite Rapids处理器多出160个核心。该芯片基于英特尔最新的Intel 18A制程工艺制造,与支撑早期至强6芯片的Intel 3节点相比,每瓦性能提升幅度最高可达15%。
"扩展AI能力不仅仅依赖加速芯片,还需要整体均衡的系统架构。"英特尔首席执行官陈立武(Lip-Bu Tan)表示,"CPU与IPU是满足现代AI工作负载对高性能、高能效与高灵活性需求的核心所在。"
双方此次合作还将延伸至英特尔基础设施处理单元(IPU)产品线。IPU专为数据加密传输、存储硬件调度等基础设施管理任务而优化设计,可将这些任务从服务器CPU中剥离,从而释放出更多计算资源用于用户业务负载。当前AI处理芯片市场的主导者英伟达(Nvidia)则将其类似功能的芯片称为数据处理单元(DPU)。
英特尔与谷歌还计划深化"基于定制ASIC架构的IPU协同研发"。ASIC即专用集成电路,是专为特定使用场景从底层设计的定制化处理器,这意味着谷歌将委托开发专为其云数据中心优化的定制IPU产品。
此次合作对英特尔而言是一次重要突破。近年来,英特尔在服务器CPU市场面临日益激烈的竞争压力。就在上个月,竞争对手Arm Holdings正式推出了其首款面向数据中心的现成处理器——搭载136个核心的AGI CPU,该产品由Arm与Meta联合开发,Meta将利用该芯片为其内部AI基础设施提供算力支持。
Q&A
Q1:英特尔至强6处理器中的AMX指令集是什么,有什么作用?
A:AMX是英特尔为至强6 Granite Rapids处理器引入的机器语言扩展指令集,专门用于加速"乘累加"运算。这类运算在AI模型推理过程中被频繁调用,AMX通过硬件层面的优化显著提升了AI推理效率,使处理器在承担通用计算任务的同时,也能更高效地应对AI工作负载。
Q2:英特尔IPU和英伟达DPU有什么区别?
A:英特尔IPU(基础设施处理单元)与英伟达DPU(数据处理单元)功能定位相似,都是将数据加密、存储调度等基础设施管理任务从主CPU中卸载,从而释放更多算力用于业务负载。两者本质上是不同厂商对同类芯片的不同命名,核心思路一致,但具体架构设计和应用场景优化方向可能存在差异。
Q3:英特尔此次与谷歌的合作对英特尔意味着什么?
A:这次合作对英特尔来说是在服务器芯片市场竞争加剧背景下的一次重要胜利。目前Arm Holdings已推出面向数据中心的处理器,并与Meta展开合作,英特尔面临的市场压力持续上升。谷歌的多年期采购承诺不仅巩固了英特尔在云计算基础设施领域的地位,也验证了其在AI工作负载处理器方向上的技术路线。
好文章,需要你的鼓励
B&H近期对多款M5 Pro MacBook Pro机型推出300美元优惠。14英寸M5 Pro版本(48GB内存+1TB固态硬盘)现售价2299美元,较原价2599美元节省300美元,且该配置在亚马逊无法购买,折扣机会更为难得。此外,16英寸M5 Pro版本(64GB内存+1TB固态硬盘)同样享有300美元折扣。B&H在多款高配MacBook机型上的定价已低于亚马逊,是近期可找到的最优价格。
FORTIS是专门测量AI代理"越权行为"的基准测试,研究发现十款顶尖模型普遍选择远超任务需要的高权限技能,端到端成功率最高仅14.3%。
Insta360推出GO 3S复古套装,将现代4K运动相机与胶片时代美学结合。套装核心仍是仅重39克的GO 3S,新增复古取景器、胶片风格滤镜、NFC定制外壳及可延长录制时长至76分钟的电池组。复古取景器模仿老式腰平相机设计,鼓励用户放慢节奏、专注构图。相机内置11种色彩预设及负片、正片等滤镜,同时保留FlowState防抖、4K拍摄及10米防水能力,面向热衷复古影像风格的年轻创作者。
荷兰Nebius团队提出SlimSpec,通过低秩分解压缩草稿模型LM-Head的内部表示而非裁剪词汇,在保留完整词汇表的同时将LM-Head计算时间压缩至原来的五分之一,端到端推理速度超越现有方法最高达9%。