TerraStackAI:为红帽和全球带来地球与空间AI技术

TerraStackAI是一个集成的开源技术栈,覆盖整个地球和空间地理空间AI工作流程。该平台包含四个核心组件:用于创建AI就绪数据的TerraKit、基于PyTorch Lightning构建的模型微调框架TerraTorch、自动化超参数优化工具Iterate,以及部署生产级服务的地理空间工作室。通过统一接口处理多源地理空间数据,支持从数据准备到模型部署的完整流程,现已集成红帽AI推理服务器。

在各个学科领域,计算数学的进步正在改变大规模科学数据的分析、解释和工作流部署方式。在地球和空间监测领域,极端天气风险、灾害响应、精准农业和太阳活动预测都依赖于将卫星和传感器产生的PB级数据转化为可操作的洞察。

IBM-NASA的Prithvi-EO和IBM-ESA的TerraMind等基础模型实现了地球系统前所未有的多模态表示。然而,仍存在一个关键差距:有效使用这些模型所需的工具化支持是分散的、复杂的,对许多需要使用它们的人来说难以获取。这促使我们的团队开发了TerraStackAI。

TerraStackAI是什么

TerraStackAI是一个集成的开源技术栈,涵盖了整个地球和空间地理空间AI工作流。TerraStackAI生态系统包含两个新组件:用于创建AI就绪数据的TerraKit,以及用于部署生产就绪服务的Geospatial Studio。这些组件与我们之前介绍的TerraTorch和Iterate一起,现在都是TerraStackAI家族的一部分。

TerraStackAI的架构采用分层方法,反映了地球和空间AI典型地理空间工作流程:

TerraKit数据层:任何机器学习项目的基础都是高质量、格式正确的数据。查询、对齐和为机器学习准备数据。TerraKit处理多源数据摄取、时空对齐和标注,同时抽象化格式、投影和预处理复杂性。

TerraTorch模型层:使用基于PyTorch Lightning和TorchGeo构建的模块化、配置驱动框架来微调和评估基础模型。混合匹配主干网络和任务头,包括预训练模型。

Iterate优化层:使用贝叶斯优化自动化超参数搜索。与MLFlow和Ray集成,并行化实验,取代数周的手动调优。

Geospatial Studio生产层:这一顶层在一个可访问的平台中将所有内容整合在一起。通过用于数据整理、微调、部署和可视化的引导式工作流程来操作化模型。支持无代码界面和程序化API以实现可扩展的AI服务。

TerraKit数据处理能力

创建高质量训练数据集通常是地球和空间AI项目最耗时的方面。TerraKit通过提供统一界面来访问、处理和准备来自多个来源的地理空间数据来解决这一挑战。

TerraKit作为TerraStackAI生态系统的数据基础,连接了分布在各种档案中、以不同格式存在、需要复杂预处理的原始地球观测数据,与训练框架期望的标准化、机器学习就绪数据集之间的差距。虽然存在访问单个数据源的工具,但TerraKit提供了一个抽象源特定细节的一致API,同时处理地理空间数据特有的时空对齐和预处理挑战。

TerraKit的能力涵盖整个数据准备流程。它提供与主要地球观测数据源的连接器,包括哥白尼哨兵任务(哨兵1号雷达和哨兵2号光学成像)和NASA的协调陆地卫星哨兵2号(HLS)档案。这些连接器处理身份验证、查询构建和数据下载,使用户免受特定提供商API的影响。

该库擅长多源数据集成。典型的地理空间AI应用可能会将光学图像与雷达数据和高程信息相结合。TerraKit处理将这些不同模态统一为连贯的多模态样本的复杂性。

自动化预处理流程处理常见转换,包括光学图像的云掩模、标准化和规范化,以及缺失数据的间隙填充。这些流程是可配置和可扩展的,允许用户实现自定义预处理逻辑,同时受益于框架的编排能力。

Geospatial Studio统一平台

Geospatial Studio代表了TerraStackAI愿景的顶峰:一个可访问的端到端平台,在统一环境中将数据整理、模型微调、部署和推理结合在一起。虽然TerraKit、TerraTorch和Iterate可以通过命令行界面和Python API独立使用,但Geospatial Studio提供了可视化无代码界面和程序化访问,使整个工作流程变得可访问。

在其核心,Geospatial Studio编排地理空间AI应用的完整生命周期。它通过适合其专业水平的界面指导用户完成工作流程的每个阶段。领域专家可以使用可视化界面来准备数据、配置和训练模型,以及在不编写代码的情况下部署模型。数据科学家可以通过Python SDK和Jupyter笔记本访问相同的功能。开发者可以通过RESTful API集成并使用平台的推理基础设施部署自定义应用。

红帽AI推理服务器集成

使用TerraStackAI开发和微调的模型现在可以使用红帽AI推理服务器(RHAIIS)3.3进行生产部署。我们为vLLM(RHAIIS的底层引擎)贡献了TerraTorch后端,并扩展了其功能,因此兼容TerraTorch的分割/像素级回归任务模型,包括Prithvi-EO-2.0及其微调变体,可以通过RHAIIS 3.3提供服务。

这为突发性、事件驱动的地球和空间AI工作负载提供了专门构建的企业级推理。OpenShift AI自动缩放功能确保服务基础设施可以在极端事件期间快速扩展,并在空闲时缩减,以帮助管理GPU成本。

该集成与TerraStackAI完全一致。在TerraTorch或Geospatial Studio中微调的模型可以通过RHAIIS作为自带模型提供服务,现有的Studio API和可视化层将继续与RHAIIS端点无缝操作。结果是从研究创新到强化、可扩展生产部署的统一路径,而无需离开TerraStackAI生态系统。

Q&A

Q1:TerraStackAI是什么?它能解决什么问题?

A:TerraStackAI是一个集成的开源技术栈,涵盖整个地球和空间地理空间AI工作流。它解决了地球观测和空间监测中工具化支持分散、复杂且难以获取的问题,将数据处理、模型训练、优化和生产部署整合在一个统一的平台中。

Q2:TerraKit在地理空间数据处理中有什么优势?

A:TerraKit提供统一API抽象不同数据源的细节,处理多源数据集成、时空对齐和预处理挑战。它连接主要地球观测数据源,自动化预处理流程,包括云掩模、标准化和缺失数据填充,让用户专注于应用本身而非数据处理复杂性。

Q3:Geospatial Studio如何简化AI模型的部署和使用?

A:Geospatial Studio提供端到端平台,支持可视化无代码界面和程序化访问。领域专家可通过可视界面操作,数据科学家可使用Python SDK,开发者可通过RESTful API集成。平台编排完整AI应用生命周期,从数据整理到模型部署都有引导式工作流程。

来源:IBM

0赞

好文章,需要你的鼓励

2026

03/04

13:08

分享

点赞

邮件订阅