GitHub如何赢回开发者的信任

过去一年,GitHub频繁出现服务中断,涉及搜索、GitHub Actions及CI/CD流水线等核心功能,严重影响开发者体验。GitHub首席运营官Kyle Daigle表示,根本原因是AI编程时代带来的爆炸性增长——月提交量已从全年10亿次跃升至每月14亿次,AI代理每月创建超1700万个Pull Request。为此,GitHub正全力推进架构重建,包括迁移至Azure云、优化数据库、将GitHub Actions调度系统重写,并将性能敏感代码从Ruby单体架构迁移至Go语言。

过去一年,GitHub早已不是开发者们习以为常的那个稳定平台。从搜索功能到GitHub Actions,再到依赖它的CI/CD流水线,各类服务中断的情况频繁出现。过去12个月里,GitHub记录了数百起故障事件,并多次公开致歉。

The New Stack近日专访了GitHub首席运营官Kyle Daigle(同时兼任微软开发者业务首席营销官),就上述问题的成因及应对措施进行了深入交流。

公司坦承,当前正处于智能体编程时代,正经历前所未有的增长压力,规模已远超一般超高速云服务公司所能承受的范畴。

对此,Daigle表示,GitHub如今已进入"全员应战"状态。

"这已经不是云计算时代那种'换更大的机器'或'多加几台机器'的常规扩容问题,"Daigle告诉The New Stack,"我们需要在未来一年内实现30到40倍的扩容,而不是像以往那样,仅靠令人印象深刻的每年翻一番来应对。"

Daigle表示,GitHub原本以为从50%的增长提速至200%已属意外之喜,"结果证明那只是个容易完成的数字,我们还需要走得更远。"目前,GitHub工程团队正致力于将系统的提交量、拉取请求和议题处理能力提升至现有水平的30倍。

这其中不无讽刺意味——正是GitHub在2021年推出Copilot,在开发者群体中大力推广AI代码生成,并引导他们形成依赖。而如今,GitHub自身却在重压之下不堪重负。2025年全年,该服务处理了10亿次提交;而现在,每月的提交量已达14亿次。Daigle透露,仅智能体每月就创建了超过1700万个拉取请求。

为应对这一需求,GitHub正将基础设施从自有数据中心迁移至微软的Azure云平台。但Daigle强调,这不仅仅是单纯地扩充容量。

"我们真正关注的,不只是继续增加CPU、进行常规的横向与纵向扩展,更重要的是深入挖掘底层系统,对那些承载核心工作的隐性系统进行更新、重建和优化,"Daigle说道。

早期工作的重心集中于缓解数据库压力。GitHub首席技术官Vlad Fedorov在今年早些时候的一篇博客中指出,GitHub解决了MySQL的资源争用问题,将Webhook完全从MySQL上剥离,并重新设计了会话缓存和身份验证流程,以降低数据库负载。

针对GitHub Actions,Daigle表示,任务分发至运行器的机制已被重写。更宏观的架构目标是将Actions和Git等关键服务与其他组件相互隔离,防止某一子系统出现问题时拖垮其他服务。与此同时,GitHub也在将对性能敏感的代码从Ruby单体架构中抽离,迁移至Go语言实现。

"那些容易摘取的低垂果实,我们已经基本拿下,"Daigle说,尽管他承认这些进展难以直观呈现,"这就是提升可用性的两难困境——当系统正常运行时,你很难直接指出某项改进的成效。"

GitHub也在积极借助微软的力量。"这确实是全员应战,"Daigle说,"我们获得了前所未有的支持,来自有经验的工程师团队,帮助我们快速完成规模化扩展。"这些增援力量大多来自微软,包括曾经历过相似规模系统挑战的工程师。

"我们的第一要务,是打造一个稳定可靠、值得信赖的平台,为全球开发者——以及如今为全球智能体——提供服务,"Daigle说。

值得一提的是,既然可用性是当前的首要任务,GitHub为何还在Build大会上推出新版Copilot应用及其他功能?

Daigle认为,不同产品层面所承担的风险并不相同。CLI和新版Copilot应用的迭代处于托管GitHub核心系统的"影响半径"之外,因此可以快速推进,而不会触碰正在修复中的系统。后端工作"聚焦于稳定性与韧性",而重建底层架构有时也会顺带释放出新的功能特性。

"如果我发布一个CLI功能,它对稳定性和可靠性的要求,与github.com并不在同一量级,"Daigle说。

当然,一旦底层基础设施出现故障,这些区分也就无关紧要了。但Daigle似乎对GitHub走出这段历史充满信心。

"希望每个月都能比上个月更好一些,"Daigle说,"我们会以最大的紧迫感全力推进。"

Q&A

Q1:GitHub近期频繁出现服务故障的原因是什么?

A:GitHub服务故障频发,主要原因是智能体编程时代带来的爆炸式增长超出了系统承载能力。2025年全年GitHub处理了10亿次提交,而现在每月就达到14亿次,智能体每月还会创建超过1700万个拉取请求。这种30至40倍的增长速度远超传统扩容方案所能应对的范畴。

Q2:GitHub正在采取哪些技术措施提升系统稳定性?

A:GitHub的技术应对措施主要包括:将基础设施从自有数据中心迁移至微软Azure云平台;解决MySQL资源争用问题,将Webhook从MySQL上剥离;重新设计会话缓存和身份验证流程;重写GitHub Actions的任务分发机制;将关键服务与其他组件隔离;以及将性能敏感代码从Ruby单体架构迁移至Go语言。

Q3:GitHub在修复稳定性问题的同时,为什么还在推出Copilot等新功能?

A:GitHub COO Kyle Daigle解释,不同产品层面所承担的风险等级不同。CLI和新版Copilot应用的开发处于托管GitHub核心系统的"影响半径"之外,可以独立迭代,不会影响正在修复中的底层系统。后端稳定性工作与前端新功能发布可以并行推进,互不干扰。

来源:The New Stack

0赞

好文章,需要你的鼓励

2026

06/08

14:22

分享

点赞

邮件订阅