将来自不同来源的数据移动到适用于 AI 的正确位置是一项具有挑战性的任务。这正是 Apache Airflow 等数据编排技术发挥作用的地方。
今天,Apache Airflow 社区推出了数年来最大更新,发布了 3.0 版本。此次发布标志着四年以来的首次重大版本更新。尽管如此,Airflow 在 2.x 系列上一直保持活跃,并在 2024 年先后发布了 2.9 和 2.10 更新,这两个版本都重点关注 AI。
近年来,数据工程师已经将 Apache Airflow 作为其事实标准工具。Apache Airflow 已确立自己为领先的开源工作流编排平台,拥有超过 3000 名贡献者,并在众多《财富》500 强公司中得到广泛应用。此外,还基于该平台构建了多个商业服务,包括 Astronomer Astro、Google Cloud Composer、Amazon Managed Workflows for Apache Airflow ( project management committee ) ( MWAA ) 和 Microsoft Azure Data Factory Managed Airflow 等。
随着组织在不同系统、云环境以及日益增长的 AI 工作负载中协调数据工作流难度不断加大,企业的需求也在持续上升。Apache Airflow 3.0 通过架构重构应对了关键企业需求,有望改善组织构建和部署数据应用的方式。
“在我看来,Airflow 3 是一个全新的开始,它为一系列更强大的功能奠定了基础,”Apache Airflow PMC ( project management committee ) 成员、Astronomer 首席战略官 Vikram Koka 在接受 VentureBeat 独家采访时表示。“这几乎是基于企业向我们反馈所需的下一阶段关键任务采用而进行的全面重构。”
企业数据复杂性改变了数据编排需求
随着企业越来越依赖数据驱动决策,数据工作流的复杂性激增。如今,组织需要管理跨多个云环境、各种数据来源以及日益复杂的 AI 工作负载的繁复管道。
Airflow 3.0 应运而生,专为满足这些不断变化的企业需求而设计。与以往版本不同,此次发布摒弃了整体打包模式,推出了分布式客户端模型,从而提升了灵活性和安全性。新架构使企业能够:
o 在多个云环境中执行任务。 o 实现细粒度的安全控制。 o 支持多种编程语言。 o 实现真正的多云部署。
Airflow 3.0 扩展的语言支持同样引人关注。虽然以往版本主要以 Python 为中心,但本次发布原生支持多种编程语言。
Airflow 3.0 将支持 Python 和 Go,并计划支持 Java、TypeScript 和 Rust。这种做法意味着数据工程师可以使用自己偏好的编程语言编写任务,从而降低了工作流开发和整合过程中的摩擦。
事件驱动功能变革数据工作流
Airflow 一直擅长定时批量处理,但企业对实时数据处理能力的需求日益增加。Airflow 3.0 现已支持这一需求。
“Airflow 3 的一个关键变化是我们称之为事件驱动调度,”Koka 解释道。
Airflow 不再每小时运行一次数据处理任务,而是在特定数据文件上传或特定消息出现时自动启动任务。这可能包括上传到 Amazon S3 云存储桶中的数据,或者在 Apache Kafka 中出现的流数据消息。
事件驱动调度功能弥补了传统 ETL ( Extract, Transform and Load ) 工具与 Apache Flink 或 Apache Spark Structured Streaming 等流处理框架之间的关键差距,使得组织可以通过统一的编排层同时处理定时和事件触发的工作流。
Airflow 将加速企业 AI 推理执行与复合 AI
事件驱动数据编排还将帮助 Airflow 支持快速推理执行。
例如,Koka 详细介绍了一个场景:利用实时推理为法律计时等专业服务提供支持。在该场景中,Airflow 可用于从日历、电子邮件和文档等多个来源收集原始数据。随后,大语言模型 ( LLM ) 能将非结构化信息转换为结构化数据,再利用另一预训练模型对结构化的计时数据进行分析,判定工作是否可计费,并分配相应的计费代码和费率。
Koka 将这种方法称为复合 AI 系统——一种通过串联不同 AI 模型以高效、智能地完成复杂任务的工作流。Airflow 3.0 的事件驱动架构使这种实时、多步骤推理过程在各种企业场景中得以实现。
复合 AI 是由 Berkeley 人工智能研究中心于 2024 年首次提出的一种方法,与 agentic AI 略有不同。Koka 解释说,agentic AI 允许自主进行 AI 决策,而复合 AI 则通过预定义的工作流在商业场景中更为可预测和可靠。
与 Airflow 携手: Texas Rangers 如何期待获益
众多 Airflow 用户中包括德州游骑兵( Texas Rangers )这支大联盟棒球队。
Texas Rangers 棒球队的全栈数据工程师 Oliver Dykstra 告诉 VentureBeat,该团队使用托管在 Astronomer Astro 平台上的 Airflow 作为棒球数据运营的“神经中枢”。他说,所有关于球员发展、合同、分析以及比赛数据的工作流均通过 Airflow 进行编排。
“我们非常期待升级到 Airflow 3 及其在事件驱动调度、可观察性和数据血缘方面的改进,”Dykstra 表示。“既然我们已经依赖 Airflow 管理关键的 AI/ML 流水线,Airflow 3 所提供的更高效率和可靠性将有助于提升整个组织对这些数据产品的信任度和韧性。”
这对企业 AI 采用意味着什么
对于评估数据编排策略的技术决策者而言,Airflow 3.0 提供了分阶段实施的切实可行的优势。
第一步是评估现有的数据工作流,找出那些能够从新事件驱动能力中受益的数据管道。组织可以识别目前触发定时任务的数据流,而采用事件驱动触发机制则可更高效地管理这些流程。此举能够显著降低处理延迟,并消除无谓的轮询操作。
接下来,技术领导者应评估自身的开发环境,以确定 Airflow 新增的语言支持是否可以整合各自独立的编排工具。目前为不同语言环境维护分散工具的团队可以开始规划迁移策略,从而简化技术栈。
对于在 AI 实施上走在前沿的企业来说,Airflow 3.0 代表了一个关键的基础设施组件,能够解决 AI 采用中的重大挑战——在企业级别下编排复杂、多阶段的 AI 工作流。该平台协调复合 AI 系统的能力有助于企业从试点阶段迈向具备适当治理、安全性与可靠性的全企业 AI 部署。
好文章,需要你的鼓励
企业AI搜索公司Glean宣布年度经常性收入(ARR)达3亿美元,较15个月前的1亿美元增长三倍。尽管谷歌、微软、OpenAI等科技巨头纷纷入局企业AI搜索市场,Glean凭借"上下文图谱"技术深度理解企业业务需求,并帮助客户显著降低AI计算成本。该公司提供按用量计费和混合定价两种模式,客户涵盖Databricks、Reddit、Pinterest及三星等企业。Glean上轮融资后估值达72亿美元。
香港中文大学与MiniMax提出ClaimDiff-RL框架,将图像描述的AI训练从整体打分升级为逐条核查,有效解决了传统方式导致AI"少说保平安"的问题,同时在多项基准测试上超越Gemini-3-Pro-Preview。
杰夫·贝索斯旗下的蓝色起源公司在佛罗里达卡纳维拉尔角进行静态点火测试时,新格伦重型火箭发生爆炸。这是美国历史上最大规模的火箭爆炸之一,也是蓝色起源公司遭遇的最严重失败。所有人员安全,但该事故可能导致新格伦火箭项目长期暂停。此前该火箭已成功完成三次发射,并实现了助推器回收和重复使用。
ParaVT是一个由南洋理工等多校联合提出的并行视频工具调用框架,通过让AI同时分析多段视频并引入PARA-GRPO算法解决训练中的格式崩溃与工具跳过问题,在六项长视频理解测试中平均提升约7.9%。