为了"重新定义高性能计算的可能性",处理器巨头AMD宣布与HPE扩大合作,加速开发下一代开放式、可扩展的人工智能基础设施,该基础设施将基于AMD领先的计算技术构建。
合作的核心内容是HPE将成为首批采用AMD Helios机架级AI架构的系统供应商之一。该架构将整合专门构建的HPE Juniper网络扩展交换机(与Broadcom合作开发)以及软件,通过以太网实现无缝、高带宽连接。
Helios平台整合了AMD EPYC中央处理器、AMD Instinct图形处理器、AMD Pensando先进网络技术和AMD ROCm开放软件栈,旨在提供一个在性能、效率和可扩展性方面优化的统一平台。AMD表示,该系统能够简化大规模AI集群的部署,实现更快的解决方案交付和更大的基础设施灵活性,适用于研究、云计算和企业环境。
基于OCP开放机架宽设计,Helios旨在帮助客户和合作伙伴简化部署时间表,为要求苛刻的AI工作负载提供可扩展、灵活的解决方案。Helios机架级AI平台使用AMD Instinct MI455X GPU、AMD EPYC Venice CPU和AMD Pensando Vulcano网络接口卡,每个机架可提供高达2.9千万亿次浮点运算的FP4性能。整个系统通过开放的ROCm软件生态系统统一,AMD声称这将为AI和高性能计算工作负载带来灵活性和创新。
AMD董事长兼CEO苏姿丰表示:"HPE一直是AMD的杰出长期合作伙伴。通过Helios,我们将这种合作推向更深层次,将AMD全栈计算技术与HPE的系统创新相结合,为客户提供开放的机架级AI平台,在AI时代推动效率、可扩展性和突破性性能的新水平。"
HPE表示,此次合作使其能够为客户集成差异化技术,特别是为Helios设计的扩展以太网交换机和软件。该交换机与Broadcom合作开发,使用超级加速器链路以太网标准,为AI工作负载提供优化性能,强化了AMD对开放、基于标准技术的承诺。
HPE总裁兼CEO安东尼奥·内里表示:"十多年来,HPE和AMD一直在推动超级计算的边界,交付多个百万亿次级系统,并推动加速创新的开放标准。随着新的AMD Helios和我们专门构建的HPE扩展网络解决方案的推出,我们为云服务提供商客户提供更快的部署、更大的灵活性,并降低其业务中AI计算扩展的风险。"
HPE将于2026年在全球提供AMD Helios AI机架级架构。
HPE还透露,德国斯图加特高性能计算中心的新超级计算机Herder将采用AMD Instinct MI430X GPU和下一代AMD EPYC Venice CPU。
基于HPE Cray超级计算GX5000平台构建,Herder旨在为大规模高性能计算和AI工作负载提供性能和效率。
HPE和AMD相信,他们各自的计算产品组合和系统设计相结合,将为欧洲研究人员和企业的主权科学发现和工业创新创造强大工具。Herder预计将于2027年下半年交付,并计划在2027年底投入使用。
斯图加特高性能计算中心主任迈克尔·雷什表示:"我们的科学用户社区要求我们继续支持传统的数值模拟高性能计算应用。与此同时,我们看到对机器学习和人工智能日益增长的兴趣。Herder的系统架构将使我们能够同时支持这两种方法,同时为用户提供开发和受益于新型混合高性能计算/AI工作流程的能力。这个平台不仅能让我们的用户运行更大、更强大的模拟实验,从而带来令人兴奋的科学发现,还能开发出更高效的计算方法,这些方法只有在下一代硬件提供的能力下才可行。"
Q&A
Q1:AMD Helios架构有什么特点?
A:Helios是AMD推出的机架级AI架构,整合了AMD EPYC CPU、AMD Instinct GPU、AMD Pensando网络技术和ROCm开放软件栈。每个机架可提供高达2.9千万亿次浮点运算的FP4性能,旨在简化大规模AI集群部署,提供更快的解决方案交付和更大的基础设施灵活性。
Q2:HPE与AMD的这次合作什么时候能够投入使用?
A:HPE将于2026年在全球提供AMD Helios AI机架级架构。同时,基于该技术的德国斯图加特高性能计算中心超级计算机Herder预计将于2027年下半年交付,并计划在2027年底投入使用。
Q3:这种机架级AI架构主要用于什么场景?
A:该架构主要适用于研究、云计算和企业环境中要求苛刻的AI工作负载。特别是为云服务提供商客户提供更快的部署、更大的灵活性,并能同时支持传统的高性能计算应用和新兴的机器学习、人工智能应用。
好文章,需要你的鼓励
大多数用户只使用计算机预装的操作系统直到报废,很少尝试更换系统。即使使用较老版本的Windows或macOS,用户仍可通过开源软件获益。本文建议通过重新安装系统来提升性能,Mac用户可从苹果官方下载各版本系统安装包,PC用户则建议使用纯净版Windows 10 LTSC以获得更长支持周期。文章强调备份数据的重要性,并推荐升级内存和固态硬盘。对于老旧系统,应替换需要联网的内置应用以降低安全风险,定期进行系统维护清理。
新加坡南洋理工大学研究团队提出"棱镜假设",认为图像可像光谱一样分解为不同频率成分,低频承载语义信息,高频包含视觉细节。基于此开发的统一自编码系统UAE,通过频率域分解成功统一了图像理解和生成能力,在多项基准测试中超越现有方法,为构建真正统一的视觉AI系统提供了新思路,有望推动计算机视觉技术向更智能统一的方向发展。
微软杰出工程师Galen Hunt在LinkedIn上宣布,目标是到2030年消除微软所有C和C++代码。公司正结合AI和算法重写最大的代码库,目标是"1名工程师、1个月、100万行代码"。微软已构建强大的代码处理基础设施,利用AI代理和算法指导进行大规模代码修改。该项目旨在将微软最大的C和C++系统翻译为内存安全的Rust语言,以提高软件安全性并消除技术债务。
芝加哥伊利诺伊大学团队提出QuCo-RAG技术,通过检查AI训练数据统计信息而非内部信号来检测AI回答可靠性。该方法采用两阶段验证:预检查问题实体频率,运行时验证事实关联。实验显示准确率提升5-14个百分点,在多个模型上表现稳定,为AI可靠性检测提供了客观可验证的新方案。