微软Azure,至少是其在瑞典中部区域处理OpenAI服务的部分,昨日出现大规模宕机,导致用户在大半个工作日内都面临错误提示。
微软首次确认问题发生在UTC时间09:00(尽管服务状态页面显示发现问题的时间为UTC 09:22)。当时,微软将Azure OpenAI服务的可用性问题归咎于"后端依赖服务不健康,导致级联故障"。
这家Windows巨头指出,使用GPT-5.2、GPT-5 Mini、GPT-4.1等模型及相关API时出现问题。
微软表示团队采取了缓解措施。换句话说,部署了IT界的老牌解决方案——在UTC 12:36时将有问题的IRM服务关闭后重新启动。
然而问题并未消失。UTC 12:46时,微软表示瑞典集群中的容器因内存不足错误而崩溃。公司开始扩展集群节点"以改善请求处理和恢复能力",并在UTC 15:30开始增加容器可用内存,该操作在UTC 15:53完成。
最终,在UTC 16:12时,当许多瑞典人准备下班时,微软确认问题已得到解决。
虽然微软承认问题的透明度值得称赞,但处理这个看似软件问题所花费的时间长度却不尽人意。
有网友在社交媒体上调侃道:"欧盟的韧性又得到了一次实战演练",而其他人将此视为学习经验:"以此为契机:部署到多个区域并实现自动故障转移。"
"教训:不要等到生产环境出问题才开始构建韧性。"
而且,因为这发生在瑞典,有人说:"Azure OAI瑞典中部区域崩了!"
今天服务已恢复正常运行,但Azure的OpenAI服务在瑞典"卡壳"并需要一个工作日才能恢复,对于一家热衷于让客户充分利用其AI服务的公司来说,这并不是一个好现象。
Q&A
Q1:微软Azure OpenAI服务在瑞典出现了什么问题?
A:微软Azure OpenAI服务在瑞典中部区域出现大规模宕机,用户在使用GPT-5.2、GPT-5 Mini、GPT-4.1等模型及相关API时遇到错误。问题起因是后端依赖服务不健康导致级联故障,随后又出现容器内存不足崩溃问题。
Q2:这次Azure OpenAI服务故障持续了多长时间?
A:故障从UTC时间09:00开始,直到16:12才完全解决,持续了大约7个多小时,几乎覆盖了整个工作日。微软采取了多项措施包括重启服务、扩展集群节点和增加容器内存才最终解决问题。
Q3:这次故障对微软AI服务发展有什么影响?
A:这次长时间的服务中断对微软来说不是好现象,特别是对于一家热衷于让客户充分利用其AI服务的公司。虽然微软在问题处理上保持了透明度,但解决软件问题所需的时间过长,可能会影响用户对其AI服务可靠性的信心。
好文章,需要你的鼓励
前OpenAI首席技术官Mira Murati创办的AI初创公司Thinking Machines Lab宣布推出"交互模型"技术。不同于现有AI的轮流对话方式,该模型采用"全双工"技术,能在接收输入的同时生成响应,实现类似真实电话通话的自然交互。其模型TML-Interaction-Small响应速度达0.40秒,优于OpenAI和谷歌同类产品。目前仍处于研究预览阶段,计划数月内开放有限测试,年内正式发布。
香港大学与哈尔滨工业大学联合发布的这项研究(arXiv:2605.06196)发现,大语言模型在扮演不同社会层级角色时,内部神经网络存在一条清晰的"粒度轴",从普通个人视角延伸至全球机构视角。这条轴是AI角色空间的主导几何方向,可被测量、被跨模型复现,并通过激活引导技术加以操控,为AI社会模拟的可信度评估和角色视角的主动调控提供了新工具。
澳大利亚各州及联邦能源部长在近期会议上达成共识,要求数据中心通过投资新建可再生能源和储能设施,完全抵消其电力需求。除昆士兰州外,所有州均支持该提议。联邦能源部长克里斯·鲍文表示,数据中心是新增能源需求的最大驱动力之一,应成为电网的助力而非负担。澳大利亚能源市场委员会将于7月前提交具体实施建议。数据显示,到2030年数据中心用电量预计将增至现在的三倍。
华盛顿大学研究团队发现,在AI数学推理训练中,将随机拼凑的拉丁文占位词(Lorem Ipsum)添加到题目前,能帮助AI突破"全部答错、训练停滞"的困境,在多个模型上平均提升推理得分2.8至6.2分。研究揭示了有效扰动的两个关键特征:使用拉丁语词汇避免语义干扰,以及保持较低困惑度确保AI能正确理解题目内容。