Google已宣布将约3万个生产包移植到Arm架构,并计划全面转换,以便在自研Axion芯片和x86处理器上运行工作负载。
这家搜索和广告巨头在上周发布的预印本论文《仓库规模的指令集迁移》以及周三的一篇文章中记录了这一举措,披露YouTube、Gmail和BigQuery已经在x86和Axion Arm CPU上运行,还有约3万个应用程序也实现了双架构运行。
两份文档都详细说明了Google的迁移过程。工程研究员Parthasarathy Ranganathan和开发者关系工程师Wolff Dobson表示,迁移工作最初假设"我们会在架构差异上花费时间,比如浮点偏移、并发性、平台特定操作符等内在函数以及性能问题"。
"起初,我们使用典型的软件实践迁移了一些顶级作业,如F1、Spanner和Bigtable,包括每周会议和专门的工程师,"两人写道。"在这个早期阶段,我们确实发现了上述问题的证据,但远没有我们预期的那么多。事实证明,现代编译器和消毒剂等工具已经解决了大部分意外情况。"
Google开发人员最终将大部分时间花在了以下工作上:
修复因过度拟合现有x86服务器而损坏的测试
更新复杂的构建和发布系统,通常针对最老和流量最高的服务
解决生产配置中的推出问题
注意避免破坏关键系统的稳定性
这篇文章和论文详细介绍了对3万个应用程序的工作,这是一个足够庞大的代码集合,Google将其现有的自动化工具投入使用,然后构建了一个名为"CogniPort"的新AI工具来完成其他工具无法完成的任务。
"CogniPort专门处理构建和测试错误,"Ranganathan和Dobson写道。"如果在过程中的任何时刻,Arm库、二进制文件或测试无法构建,或测试因错误而失败,智能体就会介入并自动修复问题。作为第一步,我们已经使用CogniPort的Blueprint编辑模式生成不适合简单更改的迁移提交。"
Google发现该智能体在特定条件下约30%的时间内成功,在测试修复、平台特定条件和数据表示修复方面表现最佳。
这个成功率并不算很高,但Google至少还有7万个包需要移植。
该公司的目标是完成这项工作,使其著名的Borg集群管理器(Kubernetes的基础)能够以有效利用Arm服务器的方式分配内部工作负载。
这样做可能会节省资金,因为Google声称其Axion驱动的机器比x86实例提供高达65%的更好性价比,能效可提高60%。
这些数字以及Google代码迁移项目的规模表明,这家网络巨头在未来几年将需要更少的x86处理器。
Q&A
Q1:CogniPort是什么?它在Google的Arm迁移中起什么作用?
A:CogniPort是Google开发的AI工具,专门用于处理代码迁移过程中的构建和测试错误。当Arm库、二进制文件或测试无法构建或测试失败时,CogniPort会自动介入修复问题。它在特定条件下约30%的时间内成功,特别擅长处理测试修复、平台特定条件和数据表示修复。
Q2:Google为什么要将工作负载从x86迁移到Arm架构?
A:Google迁移到Arm架构主要是为了节省成本和提高能效。据Google声称,其Axion驱动的Arm机器比x86实例提供高达65%的更好性价比,能效可提高60%。通过在Arm和x86双架构上运行,Google的Borg集群管理器可以更有效地分配工作负载。
Q3:Google的Arm迁移项目规模有多大?目前进展如何?
A:Google已经将约3万个生产包移植到Arm架构,包括YouTube、Gmail和BigQuery等核心服务。但该公司还有至少7万个包需要移植。Google计划全面转换所有内部工作负载,使其能够在自研Axion芯片和x86处理器上运行。
好文章,需要你的鼓励
OpenAI、Anthropic和Google的AI代码助手现在能够在人工监督下连续工作数小时,编写完整应用、运行测试并修复错误。但这些工具并非万能,可能会让软件项目变得复杂。AI代码助手的核心是大语言模型,通过多个LLM协作完成任务。由于存在上下文限制和"注意力预算"问题,系统采用上下文压缩和多代理架构来应对。使用时需要良好的软件开发实践,避免"氛围编程",确保代码质量和安全性。研究显示经验丰富的开发者使用AI工具可能反而效率降低。
这项研究由北京交通大学研究团队完成,系统阐述了人工智能智能体从"流水线"范式向"模型原生"范式的转变。研究表明,通过强化学习,AI可以自主学会规划、使用工具和管理记忆等核心能力,而不再依赖外部脚本。论文详细分析了这一范式转变如何重塑深度研究助手和GUI智能体等实际应用,并探讨了未来多智能体协作和自我反思等新兴能力的发展方向。
英伟达与AI芯片竞争对手Groq达成非独家授权协议,将聘请Groq创始人乔纳森·罗斯、总裁桑尼·马德拉等员工。据CNBC报道,英伟达以200亿美元收购Groq资产,但英伟达澄清这并非公司收购。Groq开发的LPU语言处理单元声称运行大语言模型速度快10倍,能耗仅为十分之一。该公司今年9月融资7.5亿美元,估值69亿美元,为超200万开发者的AI应用提供支持。
Prime Intellect团队发布开源AI训练全栈INTELLECT-3,这个106亿参数模型在数学、编程等测试中超越多个大型前沿模型。团队完全开源了包括prime-rl训练框架、环境库、代码执行系统在内的完整基础设施,为AI研究社区提供了高质量的训练工具,推动AI技术民主化发展。