在数字化转型加速的今天,云计算已经成为企业构建现代化业务不可或缺的基础设施。然而,随着业务对云服务依赖的增加,如何确保云计算平台的稳定性、可用性以及在极端情况下的业务连续性,成为企业关注的核心问题。
当下,随着各类应用程序深度进入人们的日常生活中,人们对在线应用的稳定性要求大幅提升,正常运行时也许人们感受不到,一旦出现问题却会给企业和用户带来不可想象的严重后果。
在此背景下,亚马逊云科技大中华区解决方案架构总经理代闻向科技旋涡分享了亚马逊云科技实现云端韧性的技术经验与方法论。

(亚马逊云科技大中华区解决方案架构总经理代闻)
云韧性的价值
每时每刻,全球范围内都会发生数起大规模云服务中断事故。这些事故无一不在警告业界:云服务的韧性至关重要。韧性则是指应用程序抵御中断或从中恢复的能力,包括与基础设施、依赖服务、错误配置、网络问题和负载激增相关的中断。

而通过云韧性能力,能体现出企业的几种价值:
业务连续性:通过提升云韧性,可以确保在系统故障或灾难发生时,业务仍能持续运行,避免因停机造成的经济损失和客户流失。
数据保护:云韧性帮助保护数据免受丢失或损坏,通过冗余备份和自动恢复机制保证数据的安全性和完整性。
客户信任:提供高韧性的云服务可以增强客户信任,提高客户满意度,促使客户选择和保持与服务提供商的合作关系。
灵活性和适应性:具备高韧性的云系统能够快速适应业务需求的变化,灵活地应对各种挑战和压力,提高业务的整体适应能力。
代闻表示,作为行业云服务的领先者,亚马逊云科技自2006年发布第一款云服务至今,已提供了超过 240 种功能全面的服务,积淀了一套行之有效的提升云服务“韧性”的方法,包括设计、实践、实施,工程经验的积累等,希望分享给行业,大家共同来促进企业业务的“韧性”发展。
一般来说,系统故障的归因分为三类:基础设施层,包括数据中心、主机、机架、网络故障,或自然灾害导致的损坏;架构设计层——数据状态、应用程序状态异常、依赖项失效等;运营机制层——由运维操作、代码部署、配置错误等引起的故障。
韧性作为衡量应用程序抵御及快速恢复中断能力的关键指标,涵盖应对基础设施故障、依赖服务中断、错误配置、网络问题乃至负载激增等多方面的能力。
科技旋涡认为,云韧性能够增强系统的稳定性和可靠性,确保企业在面对各种挑战时能够持续运行并迅速恢复,从而在竞争激烈的市场中占据优势。
亚马逊云科技在云韧性的布局
亚马逊云科技的云端韧性首先体现在其全球分布的基础设施布局上。亚马逊云科技在全球34个地理区域内运营着108个可用区(Availability Zones,简称AZ),这些可用区由多个物理数据中心组成,通过冗余的光纤网络实现了高度互联。
这种全球化的分布式架构为企业提供了跨区域的业务连续性支持,即使某一区域或可用区发生故障,其他区域和可用区依然能够确保业务的正常运行。
我们看到,亚马逊云科技的每个区域由多个可用区组成,且每个可用区的设计都是完全独立的,拥有独立的电力、制冷和网络连接。这种设计不仅在物理层面确保了各个可用区的相对独立性,还能有效防止自然灾害、电力中断等突发事件对整个区域的影响。此外,可用区之间的距离控制在约100公里以内,既能确保区域内部的延迟在毫秒级别,又能保证区域内的故障隔离。

以中国大陆两个区域为例:可用区内部,宁夏或北京区域的每个可用区内有多个数据中心,他们两两之间铺设多条冗余链路互联,可用区内任何数据中心连接直达。
可用区之间,宁夏或北京的每个可用区间由至少两个的传输中心互联,任一可用区的任一数据中心均有多条冗余链路与传输中心互联,跨可用区的任意一个数据中心可通过传输中心互联。
区域与区域互联:在宁夏和北京区域分别实现多层级互联韧性保障之后,北京和宁夏之间通过冗余的连接中心站点和分布的冗余链路互联。这些连接中心站点之间的大带宽冗余链路形成亚马逊云科技坚实的基建骨干网络。
其次,在基础设施之上的云服务层面,韧性来自于完善的区域隔离、数据面和控制面的独立设计、单元架构设计和随机分片。完善的隔离确立了故障的边界,独立于控制面的数据面能够确保在控制面失效时整个系统仍能运行,同时两者还能够独立进行扩展操作。代闻特别强了其中的单元架构设计,其核心思想是将系统分解为更小的独立单元,单元发生故障时不会彼此影响,从而控制好“爆炸半径”。
亚马逊云科技认为单元架构方法论同样也适用于客户业务系统的构建,通过最小化自身应用的爆炸半径来提高可用性。它不仅确保了服务的连续性和可靠性,还提供了灵活的应对能力,使得企业能够在各种挑战下保持稳定运营。
代闻介绍道,奇瑞捷豹路虎与紫讯科技、FreeWheel广告平台等客户均通过亚马逊云科技成功构建高韧性系统。
其中,奇瑞捷豹路虎通过将SAP系统迁移至亚马逊云,实现业务敏捷性与人员效率飞跃,并借助其独特高可用与同城灾备融合方案,极大缩减故障切换时间并保障数据零丢失;
紫讯科技则依托亚马逊云科技构建多区域容灾架构,优化核心组件高可用性,实现业务安全与成本控制双赢,SLA提升至99.995%,RTO与RPO显著缩短;
FreeWheel广告平台则在全球多区域部署中,借助亚马逊云科技完成多活应用构建,应对极端流量挑战,同时利用Serverless技术优化资源利用,确保全球用户低延迟、高体验的广告服务。这些案例充分展示亚马逊云科技在助力企业数字化转型与韧性构建方面的卓越能力。
科技旋涡看到,亚马逊云科技致力于不断为客户提供全面而深入的架构策略、高效运营的最佳实践服务、前沿的技术工具以及专业的指导方案,旨在全方位助力客户在云端环境中构建出既稳定灵活,又能够迅速适应各种挑战与变化的韧性系统。
写在最后
在中国山西省朔州市应县有一座木塔,是世界上现存最古老、最高的木结构塔建筑,距今已有超过900年的历史。应县木塔之所以能够历经近千年而屹立不倒,除了地质和环境选择之外,还有精巧的设计和历代工匠的持续维护。
与应县木塔的原理相似,代闻认为,在工程领域里边其实很多的事情是相通的,韧性本身也是一个工程概念,亚马逊云科技在18年的发展历程中,围绕基础设施、系统架构和运营机制上持续不懈的努力确保了云上系统的韧性,这才有了全球数百万客户的选择和信任。
好文章,需要你的鼓励
随着沃尔玛电商部门年化GMV突破1000亿美元,AI驱动的商务正在加速发展。Onton获得由Footwork领投的种子轮融资,定位为电商决策的起点。该平台通过神经符号引擎解决传统电商搜索痛点,在家居装饰领域快速扩张,月活用户从5万增长至100万。沃尔玛和好市多等零售巨头已在运用AI重塑购物体验,消费者期望正在发生根本性转变。
JetBrains Research团队发现,让AI理解项目级代码补全并不需要海量数据和复杂方法。通过调整OpenCoder模型的位置编码参数,仅用10亿token数据就达到了与使用数千亿token训练的顶级模型相当的性能。研究还发现,不同的上下文组织策略对最终效果影响很小,真正的关键是模型架构的调整。这为资源有限的团队开发高质量代码AI工具提供了新路径。
卫星连接领域领军企业星链与BICS达成战略合作,指定Proximus Global为其在欧洲直连手机卫星服务的首选IPX提供商。该合作将使星链利用现有IPX网络连接移动运营商,并为能够向智能手机提供宽带服务的下一代网络铺平道路。星链直连手机服务拥有超过650颗低轨卫星,可在移动信号盲区提供数据、语音、视频和消息服务,连接五大洲超800万用户。
德国ELLIS研究所团队开发扩散强制采样器,通过借鉴图像生成技术,将递归深度AI模型的推理速度提升5倍。该技术采用"对角线并行化"策略,同时处理多个文本位置而非串行等待,在保持相同准确率下大幅提升效率。关键是可直接应用于现有模型无需重训练,为AI实时应用带来突破,在数学推理、编程等复杂任务中表现优异。