人工智能正在迫使企业改变业务的几乎每个方面。从运营到招聘,再到销售和培训,变革的速度前所未有。这场变革中一个被忽视的方面是企业需要重新思考其业务连续性计划。
AI正在迫使企业超越传统的韧性理念,转向能够应对持续性、系统性中断的架构和运营模式——并且无论如何都能保持业务运行。对于IT领导者而言,这意味着业务连续性从文档化和灾难恢复演练转变为一种运营纪律。
Equinix公司最近发布的报告指出,冗余和故障转移已不再足够,因为中断正在变得系统化。研究表明,全球2000强企业现在每年因停机造成的损失约为4000亿美元,平均每小时损失约54万美元,这凸显了连续性问题已经成为全业务范围的挑战。随着AI在组织中的深度嵌入和生产力的增长,停机成本预计还会继续上升。
该报告定义了"运营生存能力"概念,并介绍了Zscaler公司的业务连续性云作为"架构独立性"的范例。这个运行在Equinix基础设施上的故障隔离并行环境拥有独立的部署管道、网络路径、域名和路由,旨在当主系统无法运行时仍能保持运营。它不是冷备份或次要区域,而是一个持续运行、逻辑上独立的控制和数据平面,即使在主环境或团队功能降级时也能保持零信任策略、用户体验和合规性。
AI为何改变连续性对话
Equinix的报告将AI称为连续性风险的"力量倍增器"。随着企业将AI从试点扩展到生产,工作负载变得更加分布式、对延迟更敏感,并深度嵌入实时运营中。当AI服务失败时,组织不仅失去计算能力,还会失去现在驱动物流、欺诈检测、客户体验和收入关键流程的决策系统。
除此之外,几个趋势正在汇聚:
AI工作负载高度互联。模型训练和推理通常跨越多个云、数据存储和网络,增加了隐藏共享依赖关系的可能性。
AI提高了延迟的风险。生成式和分析型工作负载越来越多地位于事务路径中,因此性能下降会直接转化为用户可见的影响,而不仅仅是报告变慢。
AI正在重塑威胁格局。攻击者正在使用AI自动化和扩大攻击规模,加速发现配置错误,并生成更具说服力的社会工程攻击,增加了IT必须应对的事件的频率和复杂性。
在这种环境下,连续性和韧性需要在两个方向上具备AI意识:将AI作为关键依赖进行保护,并使用AI构建更具适应性的连续性能力。
从韧性到架构独立性
传统上,韧性意味着构建具有改进冗余、集群、备份数据中心和灾难恢复流程的强大系统,以在中断后恢复服务。现实是这是必要的但还不够,因为主环境和备份环境通常共享不可见的依赖关系,如云区域、身份提供商、控制平面或运营团队。
"架构独立性"理念将连续性推进了一步:
分离爆炸半径:并行环境的设计使得一个堆栈中的故障不会自动传播到另一个堆栈,使用不同的基础设施足迹、网络路径和域名。
多层独立性:虽然物理基础设施很重要,但部署管道、变更窗口、支持系统甚至运营团队也同样重要。这些可以解耦以避免共模故障。
始终在线姿态:独立环境并发运行,而不是等待故障转移的待机环境,使切换对用户和终端实际上是透明的,避免了风险较高的手动重新配置。这比让并行系统持续"待机"具有明显的经济效益。
实际上,这意味着IT领导者需要超越传统的"同一云中的N+1"思维,考虑按提供商、平台甚至组织控制的独立性。
AI既是风险也是韧性引擎
AI不仅仅是另一个需要保护的工作负载,它也是转变连续性管理方式的工具。
风险因素
新的依赖关系:云托管的AI平台、第三方模型和外部数据源引入了新的供应链和集中风险,特别是当多个关键流程依赖于同一提供商时。
模型和数据完整性:模型幻觉、损坏的训练数据或投毒攻击可能使AI驱动的决策本身成为连续性风险,特别是在自动化运营中。
监管不确定性:新兴的AI法规可能迫使快速的运营变更,影响可以使用哪些模型和数据以及它们可以在哪里运行。
机遇
预测性连续性:AI系统可以分析遥测和外部信号,如基础设施指标、天气、地缘政治事件和供应链数据,在中断发生之前预测它们。
自愈运营:智能体AI可以将异常检测直接链接到自动修复,使基础设施能够自主重新配置、扩展或隔离组件。
更智能的测试:AI驱动的混沌工程和模拟让团队能够探索比手动桌面演练更广泛的故障场景集,包括AI特定的场景。
这意味着忽视AI作为资产或风险来源的连续性策略已经过时。
IT和运营领导者的指导
对于每天都在应对这些问题的IT受众来说,问题是如何将这些想法转化为切实的下一步行动。可以从Equinix的公告和围绕AI优先韧性的更广泛行业工作中学到几个教训:
绘制AI时代的爆炸半径图
如果不知道依赖关系集中在哪里,就无法构建架构独立性。
清点关键的AI支持的业务服务,包括模型运行的位置、它们消耗的数据以及它们穿越的云、托管站点和网络。
识别"主"和"备份"路径之间的共享依赖关系——身份提供商、DNS、控制平面、可观测性堆栈、CI/CD管道和运营团队。
使用该地图精确定位单个配置错误、区域中断或供应商问题可能导致当前灾难恢复设计的两侧都失效的位置。
为独立性而非仅仅冗余而设计
一旦了解了共享依赖关系,就重构连续性架构以优先考虑独立性。
在可行的情况下分离控制平面和数据平面,考虑使用中立的互连基础设施将连接与任何单一云的命运解耦。
如果严重依赖单一安全或连接提供商,探索类似于Zscaler业务连续性云的持续并行环境,在不同的基础设施和网络路径上运行。
这并不意味着复制所有内容;而是对哪些层必须独立以实现真正的生存能力做出深思熟虑的选择。
让AI成为连续性工具包的一部分
AI应该像备份和监控一样成为连续性策略的组成部分。
构建或采用AI驱动的异常检测,覆盖基础设施、网络、应用程序和安全遥测,以更早地发现中断的前兆。
从"人在回路中"的自动化开始,让AI推荐修复操作,并逐步转向风险低且模式被充分理解的完全自动化运行手册。
目标是缩短从检测到行动的路径,同时让人类牢牢掌控高影响决策。
将AI本身视为连续性风险领域
业务连续性专业人员需要将AI添加到其影响分析和桌面演练中。
在业务影响评估中包括AI平台和模型故障:如果主要模型端点一小时、一天或一周不可用会发生什么?
通过应用于核心软件即服务和云服务的相同连续性和韧性视角评估第三方AI提供商,包括他们自己的备份、故障转移和事件响应能力。
为在连续性流程中使用AI建立明确的治理,包括模型验证、数据质量检查以及当AI输出与专家判断冲突时的升级路径。
这在安全、物流和IT运营等领域的更多运营决策委托给AI系统时尤为重要。
为自主韧性演进运营模式
最后,AI驱动世界中的连续性既是运营模式挑战,也是技术挑战。
构建统一的可观测性骨干,使AI拥有跨应用程序、基础设施、网络和安全域进行推理所需的数据。
将团队从手动事件响应转向工程化自主防护栏和恢复行为,通过平均检测时间、缓解时间和学习时间来衡量成功,而不仅仅是传统的正常运行时间指标。
将连续性考虑嵌入平台工程和AI平台团队,使韧性属性从一开始就被设计进去,而不是后来才添加。
Equinix强调的"运营生存能力"捕捉了思维方式的转变:假设会发生中断,假设AI既是依赖也是工具,并设计环境使业务无论如何都能继续运行。
Q&A
Q1:什么是"架构独立性"?它与传统的冗余备份有什么不同?
A:架构独立性是指构建在不同基础设施、网络路径和域名上的并行环境,使得一个系统的故障不会自动传播到另一个系统。与传统冗余备份不同,这些独立环境是持续并发运行的,而不是等待故障转移的待机状态,从而避免了主备环境共享身份提供商、控制平面等隐藏依赖关系导致的共模故障。
Q2:AI如何同时成为业务连续性的风险和机遇?
A:作为风险,AI引入了新的依赖关系,如云托管平台和第三方模型,模型幻觉和数据投毒也可能影响决策准确性。作为机遇,AI可以通过分析基础设施指标、天气和供应链数据预测中断,实现自愈运营,将异常检测直接链接到自动修复,还能通过混沌工程探索更广泛的故障场景。
Q3:企业应该如何将AI纳入业务连续性规划?
A:企业需要在多个层面行动:首先绘制AI时代的依赖关系图,识别共享依赖点;其次构建AI驱动的异常检测系统,缩短从检测到行动的路径;同时将AI平台和模型故障纳入业务影响评估,评估第三方AI提供商的连续性能力;最后建立AI使用的治理机制,包括模型验证和数据质量检查。
好文章,需要你的鼓励
近期多款苹果产品迎来大幅优惠:B&H推出15英寸M5 MacBook Air午夜色系列最高降价270美元,Amazon亦跟进降价约200美元;AirPods Max 2蓝色与星光色款在Amazon降至509.99美元,创历史最低价;AirPods 4享近75折优惠;13英寸M4 iPad Air 128GB版本降至699.99美元,较原价低99美元,创上市以来最低价。
这项研究揭示了多时间尺度强化学习中的两类训练陷阱,并提出目标解耦架构,通过让评论家学多尺度、演员专注长远来解决AI训练中的"作弊"与"近视"问题。
一名特斯拉车主Ben Gawiser于2021年花费1万美元购买FSD(完全自动驾驶)软件,但五年过去,该软件始终未能实现当初承诺的L5级自动驾驶能力。他向德克萨斯州小额索赔法院提起诉讼,特斯拉未予回应,法院判决其获赔10,672美元。特斯拉多次拖延支付,最终在法院拒绝其重审请求后,于5月底向Gawiser寄出了10,800美元支票。目前全球多地已出现相关集体诉讼。
微软研究院提出ECHO方法,通过让AI预测终端命令的输出结果,将被忽视的环境反馈转化为密集训练信号,使终端任务成功率翻倍。