随着AI工作负载激增以及数据中心功耗攀升至前所未有的水平,微软研究团队正在探索一种新颖的路径来满足需求,即在可再生能源站点直接运行AI计算集群。
这种被称为"AI绿色推理"的方法在一篇研究论文中有详细描述,由微软研究院开发。
该方法提议将大规模AI推理转移到与风电场共址的模块化数据中心,绕过过载的电网,同时利用丰富且未充分利用的绿色能源。
"在风电场直接部署GPU集群时,有许多工程和物流挑战需要理解和解决,"微软印度研究院高级研究员Debopam Bhattacherjee向《数据中心知识》表示。
这些挑战中最主要的是如何在考虑本地约束的同时对AI边缘计算集群进行地理分布。
"站点的电力容量和可用性、土地的性质和成本、当地天气模式、与现有超大规模部署的连接性、物理安全、当地法规等只是开始,"他说。
随着AI工作负载激增,数据中心行业面临前所未有的电力挑战,电网拥堵、传输瓶颈和建设延误限制了高需求地区的扩张。
风力发电数据中心的理由
微软基于内部研究的白皮书认为,目前可以在风电场站点部署超过600万个高端GPU,利用源头低成本绿色电力的潜力。
随着传统电网面临日益严重的传输瓶颈、新线路建设延误以及因拥堵导致的可再生能源项目削减,本地化计算的理由变得更加有力。
"在电力源头运行AI可以缓解电网压力,解决互联排队、削减、输配电损耗和可持续性问题,"研究人员写道。
动态路由工作负载
微软方法的核心要素是Heron,这是一个新的跨站点软件路由器,旨在通过动态路由分布式计算集群的工作负载来有效管理风力发电的可变性质。
"Heron路由器是模块化的,能够感知跨站点电力、能源、硬件约束以及工作负载特征和需求,"微软研究院首席研发工程经理Mike Shepperd说。
Heron是基于网络领域相关工作强大基础构建的第一代软件。
"因此,它还没有为全球规模的商业使用而设计,但我们持续改进的迭代方法是继续开发软件以适应分布式边缘计算部署日益增长的需求的关键,随着这些部署规模的增长,"Shepperd解释道。
通过将计算与能源源头共址并利用Heron根据实时电力可用性路由任务,微软看到了在AI需求超过电网容量的地区"合理配置"GPU部署的机会。
"我们正在寻找这种方法能带来最大价值的地区,以增强Azure地区的计算容量,在这些地区电网限制可能阻止我们增长以满足客户需求,"Shepperd说。"每个部署都必须定制化。"
每个"合理配置"部署的设计基于客户需求和电力可用性之外的许多变量。
"我们在寻找合适的地点、资源和规模时会考虑所有这些变量,"他解释道。
区域部署
监管和生态系统适配也是重点考虑因素。Bhattacherjee指出,团队目前正在与合作伙伴讨论,任何区域部署都将承诺合规和当地参与。
"对于我们最终部署此解决方案的每个地区,我们将确保满足当地约束,并考虑当地生态系统和法规进行运营,"他说。"在这种背景下,我们预期在能源生产商、站点本地消费者和电网之间的接口方面也会有创新。"
AI绿色推理不仅代表数据中心架构的转变,也代表云服务提供商如何利用模块化系统、卫星连接和软件定义基础设施来解耦计算与传统电网依赖的转变。
"计算集群的形态因子在不同站点可能大不相同,需要对当今AI数据中心的部署方式进行重大重新思考,"Bhattacherjee说。
这些挑战也带来了创新机会,有助于利用模块化数据中心专业知识、低地球轨道卫星连接等模式以及传统光纤连接。
随着推理(现在占AI计算需求的90%)继续主导企业工作负载,将计算分散到更接近可再生能源源头的理由变得更加紧迫。
"我们深深关心我们的可持续发展承诺,"Bhattacherjee说。"AI绿色推理首先是一个以此承诺为出发点的研究项目。"
好文章,需要你的鼓励
从浙江安吉的桌椅,到广东佛山的沙发床垫、河南洛阳的钢制家具,再到福建福州的竹藤制品,中国各大高度专业化的家具产业带,都在不约而同地探索各自的数字化出海路径。
哥伦比亚大学研究团队开发了MathBode动态诊断工具,通过让数学题参数按正弦波变化来测试AI的动态推理能力。研究发现传统静态测试掩盖了AI的重要缺陷:几乎所有模型都表现出低通滤波特征和相位滞后现象,即在处理快速变化时会出现失真和延迟。该方法覆盖五个数学家族的测试,为AI模型选择和部署提供了新的评估维度。
研究人员正探索AI能否预测昏迷患者的医疗意愿,帮助医生做出生死决策。华盛顿大学研究员Ahmad正推进首个AI代理人试点项目,通过分析患者医疗数据预测其偏好。虽然准确率可达三分之二,但专家担心AI无法捕捉患者价值观的复杂性和动态变化。医生强调AI只能作为辅助工具,不应替代人类代理人,因为生死决策依赖具体情境且充满伦理挑战。
这项研究首次发现AI推理模型存在"雪球效应"问题——推理过程中的小错误会逐步放大,导致AI要么给出危险回答,要么过度拒绝正常请求。研究团队提出AdvChain方法,通过训练AI学习"错误-纠正"过程来获得自我纠错能力。实验显示该方法显著提升了AI的安全性和实用性,用1000个样本达到了传统方法15000个样本的效果,为AI安全训练开辟了新方向。