亚马逊电商业务召集大批工程师参加周二会议,深入分析近期多起系统故障,其中包括与AI编程工具使用相关的事件。
这家在线零售巨头表示,近几个月出现了"故障趋势",特点是"影响范围大"和"生成式AI辅助变更"等因素。根据英国《金融时报》看到的会议简报,"促成因素"中包括"新颖的生成式AI使用,其最佳实践和安全保障措施尚未完全建立"。
高级副总裁戴夫·特雷德韦尔在发给员工的邮件中表示:"大家好,你们可能知道,网站和相关基础设施的可用性最近不太好。"
会议简报没有具体说明该小组计划讨论哪些特定事件。
本月亚马逊网站和购物应用出现近6小时宕机,该公司称这起事件涉及错误的"软件代码部署"。故障导致客户无法完成交易或访问查看账户详情和产品价格等功能。
特雷德韦尔是前微软工程主管,他告诉员工,亚马逊将把每周的"本周商店技术"(TWiST)会议重点放在"深入分析导致这些问题的原因以及一些短期直接举措",希望能限制未来的故障。他要求员工参加这个通常是可选的会议。
特雷德韦尔补充说,初级和中级工程师现在需要更高级的工程师签署任何AI辅助变更。
亚马逊表示,网站可用性审查是"正常业务的一部分",目标是持续改进。该公司说:"TWiST是我们与特定零售技术领导和团队的常规每周运营会议,我们会审查整个商店的运营表现。"
另外,该公司的云计算部门——亚马逊网络服务(AWS)至少遭受了两起与AI编程助手使用相关的事件,该公司一直在积极向员工推广这些工具。
12月中旬,在工程师允许该集团的Kiro AI编程工具进行某些更改后,AWS客户成本计算器出现13小时中断,AI工具选择"删除并重新创建环境"。
亚马逊此前表示,12月的事件是"极其有限的事件",仅影响中国大陆部分地区的单一服务。亚马逊补充说,第二起事件没有影响"面向客户的AWS服务"。
《金融时报》此前报道,多名亚马逊工程师表示,由于裁员,他们的业务部门每天必须处理更多的"Sev2s"——需要快速响应以避免产品中断的事件。
亚马逊近年来进行了多轮裁员,最近在1月份裁减了16000个企业职位。该集团否认员工削减是近期故障增加的原因。
Q&A
Q1:亚马逊为什么要求高级工程师审核AI辅助代码变更?
A:因为亚马逊近几个月出现了多起系统故障,其中包括与AI编程工具使用相关的事件。公司发现生成式AI辅助变更是故障的促成因素之一,而且新颖的生成式AI使用的最佳实践和安全保障措施尚未完全建立,因此需要更严格的审核机制。
Q2:亚马逊最近发生了哪些重大故障?
A:亚马逊网站和购物应用本月出现近6小时宕机,涉及错误的软件代码部署,导致客户无法完成交易或访问功能。AWS也遭受了两起与AI编程助手相关的事件,包括12月中旬成本计算器出现13小时中断。
Q3:亚马逊的AI编程工具Kiro出现了什么问题?
A:AWS的Kiro AI编程工具在12月中旬造成了客户成本计算器13小时中断。当工程师允许Kiro进行某些更改时,AI工具选择了"删除并重新创建环境"的操作,导致服务中断。
好文章,需要你的鼓励
今天讲的出海案例是依米康,这家数据中心温控与液冷设备厂商正在把泰国纳入海外交付体系,并用生产线、总装车间和焓差实验室承接算力设施订单。
BioMatrix是首个将分子序列、分子三维结构、蛋白质序列、蛋白质三维结构和自然语言统一在单一语言模型中的生物基础模型,在80项任务中77项达到最优或第二优。
Salesforce正式推出Help Agent,这是基于Agentforce平台的预封装AI客服智能体,可在数分钟内连接企业知识库、操作功能及网页、短信、语音等沟通渠道。该产品同步推出按解决率计费模式,每次成功自主解决客户问题收费2美元,无需按token或操作次数计费。Help Agent支持低代码构建,内置测试功能,并配备全新客户服务门户。该产品预计于2026年7月正式上线。
浙江大学提出SKILLHARNESS框架,通过为AI电脑助手的每项技能附加安全边界,从成功、失败和风险三类经历中学习,使AI在动态危险环境中安全高效地完成任务。