Google大规模迁移内部工作负载至Arm架构,借助生成式AI工具

谷歌宣布已将约3万个生产软件包移植到Arm架构,计划全面转换以便在自研Axion芯片和x86处理器上运行工作负载。YouTube、Gmail和BigQuery等服务已在x86和Axion Arm CPU上运行。谷歌开发了名为CogniPort的AI工具协助迁移,成功率约30%。公司声称Axion服务器相比x86实例具有65%的性价比优势和60%的能效提升。

Google已宣布将约3万个生产包移植到Arm架构,并计划全面转换,以便在自研Axion芯片和x86处理器上运行工作负载。

这家搜索和广告巨头在上周发布的预印本论文《仓库规模的指令集迁移》以及周三的一篇文章中记录了这一举措,披露YouTube、Gmail和BigQuery已经在x86和Axion Arm CPU上运行,还有约3万个应用程序也实现了双架构运行。

两份文档都详细说明了Google的迁移过程。工程研究员Parthasarathy Ranganathan和开发者关系工程师Wolff Dobson表示,迁移工作最初假设"我们会在架构差异上花费时间,比如浮点偏移、并发性、平台特定操作符等内在函数以及性能问题"。

"起初,我们使用典型的软件实践迁移了一些顶级作业,如F1、Spanner和Bigtable,包括每周会议和专门的工程师,"两人写道。"在这个早期阶段,我们确实发现了上述问题的证据,但远没有我们预期的那么多。事实证明,现代编译器和消毒剂等工具已经解决了大部分意外情况。"

Google开发人员最终将大部分时间花在了以下工作上:

修复因过度拟合现有x86服务器而损坏的测试

更新复杂的构建和发布系统,通常针对最老和流量最高的服务

解决生产配置中的推出问题

注意避免破坏关键系统的稳定性

这篇文章和论文详细介绍了对3万个应用程序的工作,这是一个足够庞大的代码集合,Google将其现有的自动化工具投入使用,然后构建了一个名为"CogniPort"的新AI工具来完成其他工具无法完成的任务。

"CogniPort专门处理构建和测试错误,"Ranganathan和Dobson写道。"如果在过程中的任何时刻,Arm库、二进制文件或测试无法构建,或测试因错误而失败,智能体就会介入并自动修复问题。作为第一步,我们已经使用CogniPort的Blueprint编辑模式生成不适合简单更改的迁移提交。"

Google发现该智能体在特定条件下约30%的时间内成功,在测试修复、平台特定条件和数据表示修复方面表现最佳。

这个成功率并不算很高,但Google至少还有7万个包需要移植。

该公司的目标是完成这项工作,使其著名的Borg集群管理器(Kubernetes的基础)能够以有效利用Arm服务器的方式分配内部工作负载。

这样做可能会节省资金,因为Google声称其Axion驱动的机器比x86实例提供高达65%的更好性价比,能效可提高60%。

这些数字以及Google代码迁移项目的规模表明,这家网络巨头在未来几年将需要更少的x86处理器。

Q&A

Q1:CogniPort是什么?它在Google的Arm迁移中起什么作用?

A:CogniPort是Google开发的AI工具,专门用于处理代码迁移过程中的构建和测试错误。当Arm库、二进制文件或测试无法构建或测试失败时,CogniPort会自动介入修复问题。它在特定条件下约30%的时间内成功,特别擅长处理测试修复、平台特定条件和数据表示修复。

Q2:Google为什么要将工作负载从x86迁移到Arm架构?

A:Google迁移到Arm架构主要是为了节省成本和提高能效。据Google声称,其Axion驱动的Arm机器比x86实例提供高达65%的更好性价比,能效可提高60%。通过在Arm和x86双架构上运行,Google的Borg集群管理器可以更有效地分配工作负载。

Q3:Google的Arm迁移项目规模有多大?目前进展如何?

A:Google已经将约3万个生产包移植到Arm架构,包括YouTube、Gmail和BigQuery等核心服务。但该公司还有至少7万个包需要移植。Google计划全面转换所有内部工作负载,使其能够在自研Axion芯片和x86处理器上运行。

来源:The Register

0赞

好文章,需要你的鼓励

2025

10/23

18:47

分享

点赞

邮件订阅