在各个学科领域,计算数学的进步正在改变大规模科学数据的分析、解释和工作流部署方式。在地球和空间监测领域,极端天气风险、灾害响应、精准农业和太阳活动预测都依赖于将卫星和传感器产生的PB级数据转化为可操作的洞察。
IBM-NASA的Prithvi-EO和IBM-ESA的TerraMind等基础模型实现了地球系统前所未有的多模态表示。然而,仍存在一个关键差距:有效使用这些模型所需的工具化支持是分散的、复杂的,对许多需要使用它们的人来说难以获取。这促使我们的团队开发了TerraStackAI。
TerraStackAI是什么
TerraStackAI是一个集成的开源技术栈,涵盖了整个地球和空间地理空间AI工作流。TerraStackAI生态系统包含两个新组件:用于创建AI就绪数据的TerraKit,以及用于部署生产就绪服务的Geospatial Studio。这些组件与我们之前介绍的TerraTorch和Iterate一起,现在都是TerraStackAI家族的一部分。
TerraStackAI的架构采用分层方法,反映了地球和空间AI典型地理空间工作流程:
TerraKit数据层:任何机器学习项目的基础都是高质量、格式正确的数据。查询、对齐和为机器学习准备数据。TerraKit处理多源数据摄取、时空对齐和标注,同时抽象化格式、投影和预处理复杂性。
TerraTorch模型层:使用基于PyTorch Lightning和TorchGeo构建的模块化、配置驱动框架来微调和评估基础模型。混合匹配主干网络和任务头,包括预训练模型。
Iterate优化层:使用贝叶斯优化自动化超参数搜索。与MLFlow和Ray集成,并行化实验,取代数周的手动调优。
Geospatial Studio生产层:这一顶层在一个可访问的平台中将所有内容整合在一起。通过用于数据整理、微调、部署和可视化的引导式工作流程来操作化模型。支持无代码界面和程序化API以实现可扩展的AI服务。
TerraKit数据处理能力
创建高质量训练数据集通常是地球和空间AI项目最耗时的方面。TerraKit通过提供统一界面来访问、处理和准备来自多个来源的地理空间数据来解决这一挑战。
TerraKit作为TerraStackAI生态系统的数据基础,连接了分布在各种档案中、以不同格式存在、需要复杂预处理的原始地球观测数据,与训练框架期望的标准化、机器学习就绪数据集之间的差距。虽然存在访问单个数据源的工具,但TerraKit提供了一个抽象源特定细节的一致API,同时处理地理空间数据特有的时空对齐和预处理挑战。
TerraKit的能力涵盖整个数据准备流程。它提供与主要地球观测数据源的连接器,包括哥白尼哨兵任务(哨兵1号雷达和哨兵2号光学成像)和NASA的协调陆地卫星哨兵2号(HLS)档案。这些连接器处理身份验证、查询构建和数据下载,使用户免受特定提供商API的影响。
该库擅长多源数据集成。典型的地理空间AI应用可能会将光学图像与雷达数据和高程信息相结合。TerraKit处理将这些不同模态统一为连贯的多模态样本的复杂性。
自动化预处理流程处理常见转换,包括光学图像的云掩模、标准化和规范化,以及缺失数据的间隙填充。这些流程是可配置和可扩展的,允许用户实现自定义预处理逻辑,同时受益于框架的编排能力。
Geospatial Studio统一平台
Geospatial Studio代表了TerraStackAI愿景的顶峰:一个可访问的端到端平台,在统一环境中将数据整理、模型微调、部署和推理结合在一起。虽然TerraKit、TerraTorch和Iterate可以通过命令行界面和Python API独立使用,但Geospatial Studio提供了可视化无代码界面和程序化访问,使整个工作流程变得可访问。
在其核心,Geospatial Studio编排地理空间AI应用的完整生命周期。它通过适合其专业水平的界面指导用户完成工作流程的每个阶段。领域专家可以使用可视化界面来准备数据、配置和训练模型,以及在不编写代码的情况下部署模型。数据科学家可以通过Python SDK和Jupyter笔记本访问相同的功能。开发者可以通过RESTful API集成并使用平台的推理基础设施部署自定义应用。
红帽AI推理服务器集成
使用TerraStackAI开发和微调的模型现在可以使用红帽AI推理服务器(RHAIIS)3.3进行生产部署。我们为vLLM(RHAIIS的底层引擎)贡献了TerraTorch后端,并扩展了其功能,因此兼容TerraTorch的分割/像素级回归任务模型,包括Prithvi-EO-2.0及其微调变体,可以通过RHAIIS 3.3提供服务。
这为突发性、事件驱动的地球和空间AI工作负载提供了专门构建的企业级推理。OpenShift AI自动缩放功能确保服务基础设施可以在极端事件期间快速扩展,并在空闲时缩减,以帮助管理GPU成本。
该集成与TerraStackAI完全一致。在TerraTorch或Geospatial Studio中微调的模型可以通过RHAIIS作为自带模型提供服务,现有的Studio API和可视化层将继续与RHAIIS端点无缝操作。结果是从研究创新到强化、可扩展生产部署的统一路径,而无需离开TerraStackAI生态系统。
Q&A
Q1:TerraStackAI是什么?它能解决什么问题?
A:TerraStackAI是一个集成的开源技术栈,涵盖整个地球和空间地理空间AI工作流。它解决了地球观测和空间监测中工具化支持分散、复杂且难以获取的问题,将数据处理、模型训练、优化和生产部署整合在一个统一的平台中。
Q2:TerraKit在地理空间数据处理中有什么优势?
A:TerraKit提供统一API抽象不同数据源的细节,处理多源数据集成、时空对齐和预处理挑战。它连接主要地球观测数据源,自动化预处理流程,包括云掩模、标准化和缺失数据填充,让用户专注于应用本身而非数据处理复杂性。
Q3:Geospatial Studio如何简化AI模型的部署和使用?
A:Geospatial Studio提供端到端平台,支持可视化无代码界面和程序化访问。领域专家可通过可视界面操作,数据科学家可使用Python SDK,开发者可通过RESTful API集成。平台编排完整AI应用生命周期,从数据整理到模型部署都有引导式工作流程。
好文章,需要你的鼓励
企业AI搜索公司Glean宣布年度经常性收入(ARR)达3亿美元,较15个月前的1亿美元增长三倍。尽管谷歌、微软、OpenAI等科技巨头纷纷入局企业AI搜索市场,Glean凭借"上下文图谱"技术深度理解企业业务需求,并帮助客户显著降低AI计算成本。该公司提供按用量计费和混合定价两种模式,客户涵盖Databricks、Reddit、Pinterest及三星等企业。Glean上轮融资后估值达72亿美元。
香港中文大学与MiniMax提出ClaimDiff-RL框架,将图像描述的AI训练从整体打分升级为逐条核查,有效解决了传统方式导致AI"少说保平安"的问题,同时在多项基准测试上超越Gemini-3-Pro-Preview。
杰夫·贝索斯旗下的蓝色起源公司在佛罗里达卡纳维拉尔角进行静态点火测试时,新格伦重型火箭发生爆炸。这是美国历史上最大规模的火箭爆炸之一,也是蓝色起源公司遭遇的最严重失败。所有人员安全,但该事故可能导致新格伦火箭项目长期暂停。此前该火箭已成功完成三次发射,并实现了助推器回收和重复使用。
ParaVT是一个由南洋理工等多校联合提出的并行视频工具调用框架,通过让AI同时分析多段视频并引入PARA-GRPO算法解决训练中的格式崩溃与工具跳过问题,在六项长视频理解测试中平均提升约7.9%。