亚马逊电商业务召集大批工程师参加周二会议,深入分析近期多起系统故障,其中包括与AI编程工具使用相关的事件。
这家在线零售巨头表示,近几个月出现了"故障趋势",特点是"影响范围大"和"生成式AI辅助变更"等因素。根据英国《金融时报》看到的会议简报,"促成因素"中包括"新颖的生成式AI使用,其最佳实践和安全保障措施尚未完全建立"。
高级副总裁戴夫·特雷德韦尔在发给员工的邮件中表示:"大家好,你们可能知道,网站和相关基础设施的可用性最近不太好。"
会议简报没有具体说明该小组计划讨论哪些特定事件。
本月亚马逊网站和购物应用出现近6小时宕机,该公司称这起事件涉及错误的"软件代码部署"。故障导致客户无法完成交易或访问查看账户详情和产品价格等功能。
特雷德韦尔是前微软工程主管,他告诉员工,亚马逊将把每周的"本周商店技术"(TWiST)会议重点放在"深入分析导致这些问题的原因以及一些短期直接举措",希望能限制未来的故障。他要求员工参加这个通常是可选的会议。
特雷德韦尔补充说,初级和中级工程师现在需要更高级的工程师签署任何AI辅助变更。
亚马逊表示,网站可用性审查是"正常业务的一部分",目标是持续改进。该公司说:"TWiST是我们与特定零售技术领导和团队的常规每周运营会议,我们会审查整个商店的运营表现。"
另外,该公司的云计算部门——亚马逊网络服务(AWS)至少遭受了两起与AI编程助手使用相关的事件,该公司一直在积极向员工推广这些工具。
12月中旬,在工程师允许该集团的Kiro AI编程工具进行某些更改后,AWS客户成本计算器出现13小时中断,AI工具选择"删除并重新创建环境"。
亚马逊此前表示,12月的事件是"极其有限的事件",仅影响中国大陆部分地区的单一服务。亚马逊补充说,第二起事件没有影响"面向客户的AWS服务"。
《金融时报》此前报道,多名亚马逊工程师表示,由于裁员,他们的业务部门每天必须处理更多的"Sev2s"——需要快速响应以避免产品中断的事件。
亚马逊近年来进行了多轮裁员,最近在1月份裁减了16000个企业职位。该集团否认员工削减是近期故障增加的原因。
Q&A
Q1:亚马逊为什么要求高级工程师审核AI辅助代码变更?
A:因为亚马逊近几个月出现了多起系统故障,其中包括与AI编程工具使用相关的事件。公司发现生成式AI辅助变更是故障的促成因素之一,而且新颖的生成式AI使用的最佳实践和安全保障措施尚未完全建立,因此需要更严格的审核机制。
Q2:亚马逊最近发生了哪些重大故障?
A:亚马逊网站和购物应用本月出现近6小时宕机,涉及错误的软件代码部署,导致客户无法完成交易或访问功能。AWS也遭受了两起与AI编程助手相关的事件,包括12月中旬成本计算器出现13小时中断。
Q3:亚马逊的AI编程工具Kiro出现了什么问题?
A:AWS的Kiro AI编程工具在12月中旬造成了客户成本计算器13小时中断。当工程师允许Kiro进行某些更改时,AI工具选择了"删除并重新创建环境"的操作,导致服务中断。
好文章,需要你的鼓励
微软在年度Build开发者大会上一次性发布7款AI新模型,涵盖推理、编程、图像生成、语音及转录等多个领域。其中首款推理模型MAI-Thinking-1拥有350亿参数,基于商业授权数据训练,在盲测中击败Anthropic Sonnet 4.61;编程模型MAI-Code-1已上线Copilot与VS Code。微软还宣布与梅奥诊所合作,共同开发医疗领域前沿AI模型。
阿里Qwen团队发布Qwen-VLA,一套模型同时驾驭机器人抓取、室内导航与视觉理解,通过具身感知提示词统一多平台控制,多项基准超越专科模型。
微软在Build 2026大会上宣布,其多模型智能安全扫描系统MDASH已从私有预览升级为扩展预览,并整合进企业级安全控制平台,连接Defender、GitHub Code Security、Agent 365及Purview。MDASH通过100余个专用AI代理协同运作,聚焦可利用漏洞的优先排序,有效降低安全告警噪声。该系统在CyberGym基准测试中得分已达96.55%,标志着AI漏洞发现正式进入企业级生产部署阶段。
OmniInteract是由香港中文大学等机构联合开发的实时AI对话测评平台,包含250段视频和1430个时间节点,专门测试AI在真实音视频流中的实时应答、打断处理和任务监控能力,揭示当前模型的显著不足。