随着AI工作负载激增以及数据中心功耗攀升至前所未有的水平,微软研究团队正在探索一种新颖的路径来满足需求,即在可再生能源站点直接运行AI计算集群。
这种被称为"AI绿色推理"的方法在一篇研究论文中有详细描述,由微软研究院开发。
该方法提议将大规模AI推理转移到与风电场共址的模块化数据中心,绕过过载的电网,同时利用丰富且未充分利用的绿色能源。
"在风电场直接部署GPU集群时,有许多工程和物流挑战需要理解和解决,"微软印度研究院高级研究员Debopam Bhattacherjee向《数据中心知识》表示。
这些挑战中最主要的是如何在考虑本地约束的同时对AI边缘计算集群进行地理分布。
"站点的电力容量和可用性、土地的性质和成本、当地天气模式、与现有超大规模部署的连接性、物理安全、当地法规等只是开始,"他说。
随着AI工作负载激增,数据中心行业面临前所未有的电力挑战,电网拥堵、传输瓶颈和建设延误限制了高需求地区的扩张。
风力发电数据中心的理由
微软基于内部研究的白皮书认为,目前可以在风电场站点部署超过600万个高端GPU,利用源头低成本绿色电力的潜力。
随着传统电网面临日益严重的传输瓶颈、新线路建设延误以及因拥堵导致的可再生能源项目削减,本地化计算的理由变得更加有力。
"在电力源头运行AI可以缓解电网压力,解决互联排队、削减、输配电损耗和可持续性问题,"研究人员写道。
动态路由工作负载
微软方法的核心要素是Heron,这是一个新的跨站点软件路由器,旨在通过动态路由分布式计算集群的工作负载来有效管理风力发电的可变性质。
"Heron路由器是模块化的,能够感知跨站点电力、能源、硬件约束以及工作负载特征和需求,"微软研究院首席研发工程经理Mike Shepperd说。
Heron是基于网络领域相关工作强大基础构建的第一代软件。
"因此,它还没有为全球规模的商业使用而设计,但我们持续改进的迭代方法是继续开发软件以适应分布式边缘计算部署日益增长的需求的关键,随着这些部署规模的增长,"Shepperd解释道。
通过将计算与能源源头共址并利用Heron根据实时电力可用性路由任务,微软看到了在AI需求超过电网容量的地区"合理配置"GPU部署的机会。
"我们正在寻找这种方法能带来最大价值的地区,以增强Azure地区的计算容量,在这些地区电网限制可能阻止我们增长以满足客户需求,"Shepperd说。"每个部署都必须定制化。"
每个"合理配置"部署的设计基于客户需求和电力可用性之外的许多变量。
"我们在寻找合适的地点、资源和规模时会考虑所有这些变量,"他解释道。
区域部署
监管和生态系统适配也是重点考虑因素。Bhattacherjee指出,团队目前正在与合作伙伴讨论,任何区域部署都将承诺合规和当地参与。
"对于我们最终部署此解决方案的每个地区,我们将确保满足当地约束,并考虑当地生态系统和法规进行运营,"他说。"在这种背景下,我们预期在能源生产商、站点本地消费者和电网之间的接口方面也会有创新。"
AI绿色推理不仅代表数据中心架构的转变,也代表云服务提供商如何利用模块化系统、卫星连接和软件定义基础设施来解耦计算与传统电网依赖的转变。
"计算集群的形态因子在不同站点可能大不相同,需要对当今AI数据中心的部署方式进行重大重新思考,"Bhattacherjee说。
这些挑战也带来了创新机会,有助于利用模块化数据中心专业知识、低地球轨道卫星连接等模式以及传统光纤连接。
随着推理(现在占AI计算需求的90%)继续主导企业工作负载,将计算分散到更接近可再生能源源头的理由变得更加紧迫。
"我们深深关心我们的可持续发展承诺,"Bhattacherjee说。"AI绿色推理首先是一个以此承诺为出发点的研究项目。"
好文章,需要你的鼓励
Canonical宣布Ubuntu 25.10"Questing Quokka"将引入基于可信平台模块(TPM)芯片的全盘加密功能。该功能原计划在23.10版本推出,现在终于落地。新方案利用现代PC内置的TPM 2.0芯片存储加密密钥,支持自动解锁,无需手动输入密码。系统要求PC具备TPM 2.0芯片、UEFI固件并启用安全启动。相比传统LUKS加密方案,TPM加密可实现无人值守启动,特别适合服务器环境。该功能将采用统一内核镜像系统,通过snap包管理内核更新。
这项研究由哈佛大学团队开发的创新框架,解决了多机构数据共享的核心难题。他们巧妙结合联邦学习、局部差分隐私和公平性约束,使不同机构能在保护数据隐私的同时协作开发更准确、更公平的决策模型。实验证明,该方法在多个真实数据集上既保障了隐私,又显著提升了模型公平性,为医疗、金融和政府等领域的数据协作提供了实用解决方案。
创新光学无线网络全球论坛在五周年之际与国际电信联盟签署合作协议,旨在加速光子技术发展。该项目由NTT主导,联合爱立信、诺基亚等巨头,致力于构建全光子网络基础设施,应对AI驱动的数据中心增长需求。研究显示,全球数据中心容量2024至2027年将增长57%,迫切需要更高带宽、更低延迟和能耗的网络解决方案。
Meta AI研究团队开发的ALOHA系统是一种低成本开源的双臂机器人远程操作平台,旨在使机器人学习更加民主化和普及化。该系统结合了价格亲民的硬件设计和先进的行为克隆学习算法,使机器人能够从人类示范中学习复杂技能。研究表明,ALOHA系统展示了强大的泛化能力,能够在新环境中应用所学技能,如打开不同类型的瓶子。系统的开源性质鼓励全球研究者参与并推动机器人学习领域的发展,尽管仍面临成本和精确力控制等挑战。