过去一年,GitHub早已不是开发者们习以为常的那个稳定平台。从搜索功能到GitHub Actions,再到依赖它的CI/CD流水线,各类服务中断的情况频繁出现。过去12个月里,GitHub记录了数百起故障事件,并多次公开致歉。
The New Stack近日专访了GitHub首席运营官Kyle Daigle(同时兼任微软开发者业务首席营销官),就上述问题的成因及应对措施进行了深入交流。
公司坦承,当前正处于智能体编程时代,正经历前所未有的增长压力,规模已远超一般超高速云服务公司所能承受的范畴。
对此,Daigle表示,GitHub如今已进入"全员应战"状态。
"这已经不是云计算时代那种'换更大的机器'或'多加几台机器'的常规扩容问题,"Daigle告诉The New Stack,"我们需要在未来一年内实现30到40倍的扩容,而不是像以往那样,仅靠令人印象深刻的每年翻一番来应对。"
Daigle表示,GitHub原本以为从50%的增长提速至200%已属意外之喜,"结果证明那只是个容易完成的数字,我们还需要走得更远。"目前,GitHub工程团队正致力于将系统的提交量、拉取请求和议题处理能力提升至现有水平的30倍。
这其中不无讽刺意味——正是GitHub在2021年推出Copilot,在开发者群体中大力推广AI代码生成,并引导他们形成依赖。而如今,GitHub自身却在重压之下不堪重负。2025年全年,该服务处理了10亿次提交;而现在,每月的提交量已达14亿次。Daigle透露,仅智能体每月就创建了超过1700万个拉取请求。
为应对这一需求,GitHub正将基础设施从自有数据中心迁移至微软的Azure云平台。但Daigle强调,这不仅仅是单纯地扩充容量。
"我们真正关注的,不只是继续增加CPU、进行常规的横向与纵向扩展,更重要的是深入挖掘底层系统,对那些承载核心工作的隐性系统进行更新、重建和优化,"Daigle说道。
早期工作的重心集中于缓解数据库压力。GitHub首席技术官Vlad Fedorov在今年早些时候的一篇博客中指出,GitHub解决了MySQL的资源争用问题,将Webhook完全从MySQL上剥离,并重新设计了会话缓存和身份验证流程,以降低数据库负载。
针对GitHub Actions,Daigle表示,任务分发至运行器的机制已被重写。更宏观的架构目标是将Actions和Git等关键服务与其他组件相互隔离,防止某一子系统出现问题时拖垮其他服务。与此同时,GitHub也在将对性能敏感的代码从Ruby单体架构中抽离,迁移至Go语言实现。
"那些容易摘取的低垂果实,我们已经基本拿下,"Daigle说,尽管他承认这些进展难以直观呈现,"这就是提升可用性的两难困境——当系统正常运行时,你很难直接指出某项改进的成效。"
GitHub也在积极借助微软的力量。"这确实是全员应战,"Daigle说,"我们获得了前所未有的支持,来自有经验的工程师团队,帮助我们快速完成规模化扩展。"这些增援力量大多来自微软,包括曾经历过相似规模系统挑战的工程师。
"我们的第一要务,是打造一个稳定可靠、值得信赖的平台,为全球开发者——以及如今为全球智能体——提供服务,"Daigle说。
值得一提的是,既然可用性是当前的首要任务,GitHub为何还在Build大会上推出新版Copilot应用及其他功能?
Daigle认为,不同产品层面所承担的风险并不相同。CLI和新版Copilot应用的迭代处于托管GitHub核心系统的"影响半径"之外,因此可以快速推进,而不会触碰正在修复中的系统。后端工作"聚焦于稳定性与韧性",而重建底层架构有时也会顺带释放出新的功能特性。
"如果我发布一个CLI功能,它对稳定性和可靠性的要求,与github.com并不在同一量级,"Daigle说。
当然,一旦底层基础设施出现故障,这些区分也就无关紧要了。但Daigle似乎对GitHub走出这段历史充满信心。
"希望每个月都能比上个月更好一些,"Daigle说,"我们会以最大的紧迫感全力推进。"
Q&A
Q1:GitHub近期频繁出现服务故障的原因是什么?
A:GitHub服务故障频发,主要原因是智能体编程时代带来的爆炸式增长超出了系统承载能力。2025年全年GitHub处理了10亿次提交,而现在每月就达到14亿次,智能体每月还会创建超过1700万个拉取请求。这种30至40倍的增长速度远超传统扩容方案所能应对的范畴。
Q2:GitHub正在采取哪些技术措施提升系统稳定性?
A:GitHub的技术应对措施主要包括:将基础设施从自有数据中心迁移至微软Azure云平台;解决MySQL资源争用问题,将Webhook从MySQL上剥离;重新设计会话缓存和身份验证流程;重写GitHub Actions的任务分发机制;将关键服务与其他组件隔离;以及将性能敏感代码从Ruby单体架构迁移至Go语言。
Q3:GitHub在修复稳定性问题的同时,为什么还在推出Copilot等新功能?
A:GitHub COO Kyle Daigle解释,不同产品层面所承担的风险等级不同。CLI和新版Copilot应用的开发处于托管GitHub核心系统的"影响半径"之外,可以独立迭代,不会影响正在修复中的底层系统。后端稳定性工作与前端新功能发布可以并行推进,互不干扰。
好文章,需要你的鼓励
再发一期Anthropic哲学家Amanda Askell的访谈。熟悉她的朋友应该知道,她的工作是给Claude写"性格"。Anthropic那份84页的Claude宪法文件,公司内部叫"灵魂文档"(soul document),主笔就是她。
纽约大学与KAIST联合研究发现,顶尖AI视频理解系统在专为"视觉状态追踪"设计的VSTAT基准上得分仅44.4%,接近随机猜测,核心瓶颈是视觉感知而非推理能力。
由剑桥大学衍生公司DIOSynVax开发的AI设计平台,针对所有SARS-CoV-2变体设计的通用疫苗已完成首次人体临床试验,结果令人鼓舞。该疫苗基于全球监测项目收集的冠状病毒基因序列数据,利用AI设计出包含共同特征的"超级抗原"。39名志愿者参与测试,结果显示疫苗安全,并对多种冠状病毒产生免疫响应。研究团队表示,类似方法未来可应用于埃博拉等其他病毒家族的疫苗研发。
MindZero是约翰斯·霍普金斯大学与北京大学联合开发的AI系统,无需标注数据,通过自我监督强化学习训练小型语言模型实时推断人类意图,在协助任务中超越多数大型专有模型。