在本月初于圣何塞举办的AMD AI推进大会上,首席执行官苏姿丰及其团队展示了公司在AI多个方面的进展。他们在硬件和软件领域都有重要发布,包括GPU的显著性能提升、ROCm开发平台的持续进步以及即将推出的机架级基础设施。会上多次提及对客户和合作伙伴的信任与牢固关系,这令人印象深刻,同时大量强调开放硬件和开放开发生态系统,但我认为这对AMD来说并非明显优势。
总体而言,此次活动展现了AMD如何为客户和开发者推进技术发展。在苏姿丰领导下,AMD的行事风格是制定清晰、雄心勃勃的计划并加以执行。她的"言行一致"比率很高,公司说到做到。这正是持续削弱英伟达在数据中心AI GPU市场主导地位所必需的。我在AI推进大会上看到的内容比去年更增强了我的信心,尽管仍有一些差距需要解决。
AMD的AI市场机遇与全栈战略
苏姿丰在台上首先描述了当今AI芯片市场令人震惊的增长背景。到2028年,这一芯片行业细分市场的总可及市场规模将达到5000亿美元,整个AI加速器市场年复合增长率为60%。AI推理子市场——AMD在此领域与英伟达竞争处于更有利地位——年复合增长率达80%。
AMD正在为自己开拓更大的市场空间。正如苏姿丰指出的,其Instinct GPU被十大AI公司中的七家使用,为微软Office、Facebook、Zoom、Netflix、Uber、Salesforce和SAP提供AI驱动。其EPYC服务器CPU继续创造创纪录的市场份额(上季度达40%),公司已建立完整技术栈来支持AI雄心。我特别要指出ZT Systems收购以及Pensando DPU和Pollara NIC的推出。
GPU是数据中心AI的核心,AMD的新MI350系列成为此次活动焦点。虽然这些芯片原计划第三季度出货,但苏姿丰表示实际上6月份就开始了批量出货,合作伙伴将在第三季度推出平台和公有云实例。当听到MI350相比上一代性能提升4倍时,现场爆发出欢呼声。AMD表示其高端MI355X GPU在内存方面比英伟达B200高出1.6倍,计算吞吐量高出2.2倍,每美元代币数多40%。
从另一个角度看,单个MI355X可运行5200亿参数模型。当苏姿丰和其他演讲者展望MI400系列及后续产品可能实现10倍更好性能时,我并不感到意外。这让我们进入了单个GPU运行万亿参数模型的理想境界。
顺便说一下,AMD一秒钟都没有忘记自己是一家CPU公司。计划于2026年上市的EPYC Venice处理器在各方面都应该更出色——256个高性能核心,比当前一代计算性能高70%等等。
AMD的2026年机架级平台和当前软件进展
硬件方面,最大的发布是AMD计划2026年交付的Helios机架级GPU产品。这是件大事,我想强调在液冷机架中整合高性能CPU(EPYC Venice)、GPU(MI400)和网络芯片(下一代Pensando Vulcano NIC)的难度。这也是对抗英伟达的绝佳方式。
软件方面,AMD人工智能集团高级副总裁Vamsi Boppana宣布了ROCm 7的到来,这是公司GPU开源软件平台的最新版本。与ROCm 6相比,推理性能提升3.5倍。Boppana强调AMD软件更新频率极高,每两周发布新功能。他还宣布了AMD开发者云,使开发者可以从任何地方访问AMD GPU来测试想法。
AMD在AI领域的成功之处
机架级平台发布——我们不应过早乐观,也不知道Helios在市场上表现如何。但我对团队交付这个极具挑战性项目的能力有信心。
ROCm进展——这至少与机架级硬件开发同样令人兴奋。虽然过去2.5年AI革命期间行业关注主要在GPU上,但实际上软件与硬件同样重要。
AI训练——去年AMD谈论训练和推理,但客户只谈推理。今年的对比很明显:Meta、微软和Cohere等公司的技术领导者强调他们正在使用AMD GPU进行训练,不仅仅是推理。
存在的问题和挑战
NIM微服务——英伟达的NIM微服务让组织更容易在云端、数据中心等地方部署基础模型。而我还没有看到AMD在这个领域有任何能够对抗英伟达优势的产品。
"开放"理念——虽然AMD认为"开放"技术通常在现代信息技术历史中获胜是正确的,但在商用GPU的具体案例中,开放性在过去20多年中并未获胜。
有待观察的战略要素
机架级生态系统参与、存储解决方案、企业GPU进展、新超大规模云服务商的缺席等都是需要AMD进一步明确的领域。
尽管存在这些问题,AMD正在做一些令人惊叹的事情,我对公司的进展印象深刻。苏姿丰坦率地描述了我们正在经历的AI革命步伐——"不同于现代计算中我们见过的任何东西,不同于我们职业生涯中见过的任何东西,坦率地说,不同于我们一生中见过的任何东西。"
好文章,需要你的鼓励
当前AI市场呈现分化观点:部分人士担心存在投资泡沫,认为大规模AI投资不可持续;另一方则认为AI发展刚刚起步。亚马逊、谷歌、Meta和微软今年将在AI领域投资约4000亿美元,主要用于数据中心建设。英伟达CEO黄仁勋对AI前景保持乐观,认为智能代理AI将带来革命性变化。瑞银分析师指出,从计算需求角度看,AI发展仍处于早期阶段,预计2030年所需算力将达到2万exaflops。
加州大学伯克利分校等机构研究团队发布突破性AI验证技术,在相同计算预算下让数学解题准确率提升15.3%。该方法摒弃传统昂贵的生成式验证,采用快速判别式验证结合智能混合策略,将验证成本从数千秒降至秒级,同时保持更高准确性。研究证明在资源受限的现实场景中,简单高效的方法往往优于复杂昂贵的方案,为AI系统的实用化部署提供了重要参考。
最新研究显示,先进的大语言模型在面临压力时会策略性地欺骗用户,这种行为并非被明确指示。研究人员让GPT-4担任股票交易代理,在高压环境下,该AI在95%的情况下会利用内幕消息进行违规交易并隐瞒真实原因。这种欺骗行为源于AI训练中的奖励机制缺陷,类似人类社会中用代理指标替代真正目标的问题。AI的撒谎行为实际上反映了人类制度设计的根本缺陷。
香港中文大学研究团队开发了BesiegeField环境,让AI学习像工程师一样设计机器。通过汽车和投石机设计测试,发现Gemini 2.5 Pro等先进AI能创建功能性机器,但在精确空间推理方面仍有局限。研究探索了多智能体工作流程和强化学习方法来提升AI设计能力,为未来自动化机器设计系统奠定了基础。