在本月初于圣何塞举办的AMD AI推进大会上,首席执行官苏姿丰及其团队展示了公司在AI多个方面的进展。他们在硬件和软件领域都有重要发布,包括GPU的显著性能提升、ROCm开发平台的持续进步以及即将推出的机架级基础设施。会上多次提及对客户和合作伙伴的信任与牢固关系,这令人印象深刻,同时大量强调开放硬件和开放开发生态系统,但我认为这对AMD来说并非明显优势。
总体而言,此次活动展现了AMD如何为客户和开发者推进技术发展。在苏姿丰领导下,AMD的行事风格是制定清晰、雄心勃勃的计划并加以执行。她的"言行一致"比率很高,公司说到做到。这正是持续削弱英伟达在数据中心AI GPU市场主导地位所必需的。我在AI推进大会上看到的内容比去年更增强了我的信心,尽管仍有一些差距需要解决。
AMD的AI市场机遇与全栈战略
苏姿丰在台上首先描述了当今AI芯片市场令人震惊的增长背景。到2028年,这一芯片行业细分市场的总可及市场规模将达到5000亿美元,整个AI加速器市场年复合增长率为60%。AI推理子市场——AMD在此领域与英伟达竞争处于更有利地位——年复合增长率达80%。
AMD正在为自己开拓更大的市场空间。正如苏姿丰指出的,其Instinct GPU被十大AI公司中的七家使用,为微软Office、Facebook、Zoom、Netflix、Uber、Salesforce和SAP提供AI驱动。其EPYC服务器CPU继续创造创纪录的市场份额(上季度达40%),公司已建立完整技术栈来支持AI雄心。我特别要指出ZT Systems收购以及Pensando DPU和Pollara NIC的推出。
GPU是数据中心AI的核心,AMD的新MI350系列成为此次活动焦点。虽然这些芯片原计划第三季度出货,但苏姿丰表示实际上6月份就开始了批量出货,合作伙伴将在第三季度推出平台和公有云实例。当听到MI350相比上一代性能提升4倍时,现场爆发出欢呼声。AMD表示其高端MI355X GPU在内存方面比英伟达B200高出1.6倍,计算吞吐量高出2.2倍,每美元代币数多40%。
从另一个角度看,单个MI355X可运行5200亿参数模型。当苏姿丰和其他演讲者展望MI400系列及后续产品可能实现10倍更好性能时,我并不感到意外。这让我们进入了单个GPU运行万亿参数模型的理想境界。
顺便说一下,AMD一秒钟都没有忘记自己是一家CPU公司。计划于2026年上市的EPYC Venice处理器在各方面都应该更出色——256个高性能核心,比当前一代计算性能高70%等等。
AMD的2026年机架级平台和当前软件进展
硬件方面,最大的发布是AMD计划2026年交付的Helios机架级GPU产品。这是件大事,我想强调在液冷机架中整合高性能CPU(EPYC Venice)、GPU(MI400)和网络芯片(下一代Pensando Vulcano NIC)的难度。这也是对抗英伟达的绝佳方式。
软件方面,AMD人工智能集团高级副总裁Vamsi Boppana宣布了ROCm 7的到来,这是公司GPU开源软件平台的最新版本。与ROCm 6相比,推理性能提升3.5倍。Boppana强调AMD软件更新频率极高,每两周发布新功能。他还宣布了AMD开发者云,使开发者可以从任何地方访问AMD GPU来测试想法。
AMD在AI领域的成功之处
机架级平台发布——我们不应过早乐观,也不知道Helios在市场上表现如何。但我对团队交付这个极具挑战性项目的能力有信心。
ROCm进展——这至少与机架级硬件开发同样令人兴奋。虽然过去2.5年AI革命期间行业关注主要在GPU上,但实际上软件与硬件同样重要。
AI训练——去年AMD谈论训练和推理,但客户只谈推理。今年的对比很明显:Meta、微软和Cohere等公司的技术领导者强调他们正在使用AMD GPU进行训练,不仅仅是推理。
存在的问题和挑战
NIM微服务——英伟达的NIM微服务让组织更容易在云端、数据中心等地方部署基础模型。而我还没有看到AMD在这个领域有任何能够对抗英伟达优势的产品。
"开放"理念——虽然AMD认为"开放"技术通常在现代信息技术历史中获胜是正确的,但在商用GPU的具体案例中,开放性在过去20多年中并未获胜。
有待观察的战略要素
机架级生态系统参与、存储解决方案、企业GPU进展、新超大规模云服务商的缺席等都是需要AMD进一步明确的领域。
尽管存在这些问题,AMD正在做一些令人惊叹的事情,我对公司的进展印象深刻。苏姿丰坦率地描述了我们正在经历的AI革命步伐——"不同于现代计算中我们见过的任何东西,不同于我们职业生涯中见过的任何东西,坦率地说,不同于我们一生中见过的任何东西。"
好文章,需要你的鼓励
CoreWeave发布AI对象存储服务,采用本地对象传输加速器(LOTA)技术,可在全球范围内高速传输对象数据,无出口费用或请求交易分层费用。该技术通过智能代理在每个GPU节点上加速数据传输,提供高达每GPU 7 GBps的吞吐量,可扩展至数十万个GPU。服务采用三层自动定价模式,为客户的AI工作负载降低超过75%的存储成本。
莫斯科高等经济学院研究员尼古拉·斯克里普科开发了IFEval-FC基准测试,专门评估大语言模型在函数调用中遵循格式指令的能力。研究发现,即使是GPT-5和Claude Opus 4.1等最先进模型,在处理看似简单的格式要求时准确率也不超过80%,揭示了AI在实际应用中的重要局限性。
谷歌DeepMind与核聚变初创公司CFS合作,运用先进AI模型帮助管理和改进即将发布的Sparc反应堆。DeepMind开发了名为Torax的专用软件来模拟等离子体,结合强化学习等AI技术寻找最佳核聚变控制方式。核聚变被视为清洁能源的圣杯,可提供几乎无限的零碳排放能源。谷歌已投资CFS并承诺购买其200兆瓦电力。
上海人工智能实验室联合多家机构推出MinerU2.5文档解析模型,仅用12亿参数就在文本、公式、表格识别等任务上全面超越GPT-4o等大型模型。该模型采用创新的两阶段解析策略,先进行全局布局分析再做局部精细识别,计算效率提升一个数量级。通过重新定义任务标准和构建高质量数据引擎,MinerU2.5能准确处理旋转表格、复杂公式、多语言文档等挑战性内容,为文档数字化提供了高效解决方案。