微软公司今日宣布,其首个人工智能"超级工厂"正式上线,位于亚特兰大的这座耗资数十亿美元的全新数据中心设施正式开业。
公司表示,将把这个大规模新服务器群与全国其他地区的现有数据中心基础设施连接起来,确保能够为客户提供所需的巨大计算能力,而不受能源限制。
这一公告对微软来说是一个重要里程碑,该公司有雄心在未来两年内将其数据中心占地面积翻倍。这个新的亚特兰大站点是微软更大"Fairwater"网络的一部分,这是一类专门用于训练和运行AI模型的新型服务器中心。
微软表示,该设施将托管数十万个英伟达公司最强大的图形处理单元和其他AI加速器,并拥有连接构成更大Fairwater网络其他设施的专用高速链路。
该综合体占地超过100万平方英尺,坐落在85英亩的土地上,这也是微软首个采用两层设计的数据中心,这意味着相比老式设施,它能够容纳双倍数量的计算基础设施。微软表示,这种设计在速度和功耗方面支持更高效率。
设施的能源需求也受益于新的液体冷却系统,使其能够比以往更紧密地封装数千个独立的GPU。由于它几乎回收利用了所有使用的水,其消耗量相当于大约20个美国家庭的用水量,该公司补充说。
为了连接所有这些GPU,微软在设施中安装了超过12万英里的光纤电缆,使它们能够以接近光速的速度发送和接收数据。微软云和AI执行副总裁斯科特·古斯里表示,这个网络可以比作专门用于AI流量的"尖端快车道"。
微软没有透露亚特兰大数据中心的建设成本,也没有评论其年度电力消耗量,但表示更广泛的Fairwater网络将使用"数千兆瓦"的电力。为了确保能够获得足够的电力,Fairwater已分布在多个地理区域,该公司表示。
例如,其他数据中心之一位于威斯康星州,距离亚特兰大约700英里。这意味着微软可以利用各种不同的电力来源,避免耗尽一个地点的可用能源。
亚特兰大设施最大的客户之一将是OpenAI,该公司已经严重依赖微软来满足其计算基础设施需求,但它也将服务于其他AI公司,包括法国初创公司Mistral AI和埃隆·马斯克的xAI公司。此外,微软还将为自己的需求保留一些容量,包括训练其专有模型。
这家总部位于雷德蒙德的公司最近透露,在其财年第一季度,它在资本支出上花费了惊人的340亿美元,其中大部分资本用于数据中心建设。该公司还表示,计划在本财年剩余时间内增加基础设施投资。
做这件事的远不止这一家公司——实际上,包括谷歌、甲骨文、Meta平台和亚马逊网络服务在内的许多科技巨头都有类似计划。这些公司合计今年将在AI基础设施上投资约4000亿美元。
Q&A
Q1:微软Fairwater网络是什么?有什么特殊功能?
A:Fairwater网络是微软推出的新型服务器中心网络,专门用于训练和运行AI模型。该网络分布在多个地理区域,包括亚特兰大和威斯康星等地,通过分布式设计确保充足的电力供应,避免在单一位置耗尽可用能源。
Q2:亚特兰大AI超级工厂有什么技术优势?
A:该设施采用微软首个两层设计,能容纳双倍计算基础设施。配备数十万个英伟达最强GPU和AI加速器,安装超过12万英里光纤电缆实现近光速数据传输。新液体冷却系统提高了GPU封装密度,用水量仅相当于20个美国家庭。
Q3:微软在AI基础设施建设上投入了多少资金?
A:微软在财年第一季度的资本支出达到340亿美元,大部分用于数据中心建设。公司计划在本财年剩余时间继续增加基础设施投资,并有雄心在未来两年内将数据中心占地面积翻倍。整个Fairwater网络将使用数千兆瓦电力。
好文章,需要你的鼓励
今天讲的出海案例是开创电气,一家金华手持式电动工具制造商,在越南基地完成首款产品验收并形成80万台年产能力。
JETSPEC是由UC San Diego等机构联合提出的推测解码框架,通过树形因果掩码让草稿头在一次前向传播中生成分支一致的候选树,在MATH-500上实现最高9.64倍端到端加速。
研究人员意外发现,标准MOSFET晶体管可同时模拟神经元和突触行为,形成"神经突触随机存取存储器"(NSRAM)。该技术仅需一至两个晶体管即可实现传统需数十乃至数百个元件才能完成的神经信号处理,且与现有硅基制造工艺完全兼容,良率达100%。未来有望应用于边缘AI及高能效神经形态芯片,长远或可挑战GPU地位。
本文介绍了中国科学院自动化所的研究,揭示了大型语言模型在多轮工具调用强化学习中崩溃的根本原因,并系统评估了五种监督信号对训练稳定性和泛化能力的影响。