将来自不同来源的数据移动到适用于 AI 的正确位置是一项具有挑战性的任务。这正是 Apache Airflow 等数据编排技术发挥作用的地方。
今天,Apache Airflow 社区推出了数年来最大更新,发布了 3.0 版本。此次发布标志着四年以来的首次重大版本更新。尽管如此,Airflow 在 2.x 系列上一直保持活跃,并在 2024 年先后发布了 2.9 和 2.10 更新,这两个版本都重点关注 AI。
近年来,数据工程师已经将 Apache Airflow 作为其事实标准工具。Apache Airflow 已确立自己为领先的开源工作流编排平台,拥有超过 3000 名贡献者,并在众多《财富》500 强公司中得到广泛应用。此外,还基于该平台构建了多个商业服务,包括 Astronomer Astro、Google Cloud Composer、Amazon Managed Workflows for Apache Airflow ( project management committee ) ( MWAA ) 和 Microsoft Azure Data Factory Managed Airflow 等。
随着组织在不同系统、云环境以及日益增长的 AI 工作负载中协调数据工作流难度不断加大,企业的需求也在持续上升。Apache Airflow 3.0 通过架构重构应对了关键企业需求,有望改善组织构建和部署数据应用的方式。
“在我看来,Airflow 3 是一个全新的开始,它为一系列更强大的功能奠定了基础,”Apache Airflow PMC ( project management committee ) 成员、Astronomer 首席战略官 Vikram Koka 在接受 VentureBeat 独家采访时表示。“这几乎是基于企业向我们反馈所需的下一阶段关键任务采用而进行的全面重构。”
企业数据复杂性改变了数据编排需求
随着企业越来越依赖数据驱动决策,数据工作流的复杂性激增。如今,组织需要管理跨多个云环境、各种数据来源以及日益复杂的 AI 工作负载的繁复管道。
Airflow 3.0 应运而生,专为满足这些不断变化的企业需求而设计。与以往版本不同,此次发布摒弃了整体打包模式,推出了分布式客户端模型,从而提升了灵活性和安全性。新架构使企业能够:
o 在多个云环境中执行任务。 o 实现细粒度的安全控制。 o 支持多种编程语言。 o 实现真正的多云部署。
Airflow 3.0 扩展的语言支持同样引人关注。虽然以往版本主要以 Python 为中心,但本次发布原生支持多种编程语言。
Airflow 3.0 将支持 Python 和 Go,并计划支持 Java、TypeScript 和 Rust。这种做法意味着数据工程师可以使用自己偏好的编程语言编写任务,从而降低了工作流开发和整合过程中的摩擦。
事件驱动功能变革数据工作流
Airflow 一直擅长定时批量处理,但企业对实时数据处理能力的需求日益增加。Airflow 3.0 现已支持这一需求。
“Airflow 3 的一个关键变化是我们称之为事件驱动调度,”Koka 解释道。
Airflow 不再每小时运行一次数据处理任务,而是在特定数据文件上传或特定消息出现时自动启动任务。这可能包括上传到 Amazon S3 云存储桶中的数据,或者在 Apache Kafka 中出现的流数据消息。
事件驱动调度功能弥补了传统 ETL ( Extract, Transform and Load ) 工具与 Apache Flink 或 Apache Spark Structured Streaming 等流处理框架之间的关键差距,使得组织可以通过统一的编排层同时处理定时和事件触发的工作流。
Airflow 将加速企业 AI 推理执行与复合 AI
事件驱动数据编排还将帮助 Airflow 支持快速推理执行。
例如,Koka 详细介绍了一个场景:利用实时推理为法律计时等专业服务提供支持。在该场景中,Airflow 可用于从日历、电子邮件和文档等多个来源收集原始数据。随后,大语言模型 ( LLM ) 能将非结构化信息转换为结构化数据,再利用另一预训练模型对结构化的计时数据进行分析,判定工作是否可计费,并分配相应的计费代码和费率。
Koka 将这种方法称为复合 AI 系统——一种通过串联不同 AI 模型以高效、智能地完成复杂任务的工作流。Airflow 3.0 的事件驱动架构使这种实时、多步骤推理过程在各种企业场景中得以实现。
复合 AI 是由 Berkeley 人工智能研究中心于 2024 年首次提出的一种方法,与 agentic AI 略有不同。Koka 解释说,agentic AI 允许自主进行 AI 决策,而复合 AI 则通过预定义的工作流在商业场景中更为可预测和可靠。
与 Airflow 携手: Texas Rangers 如何期待获益
众多 Airflow 用户中包括德州游骑兵( Texas Rangers )这支大联盟棒球队。
Texas Rangers 棒球队的全栈数据工程师 Oliver Dykstra 告诉 VentureBeat,该团队使用托管在 Astronomer Astro 平台上的 Airflow 作为棒球数据运营的“神经中枢”。他说,所有关于球员发展、合同、分析以及比赛数据的工作流均通过 Airflow 进行编排。
“我们非常期待升级到 Airflow 3 及其在事件驱动调度、可观察性和数据血缘方面的改进,”Dykstra 表示。“既然我们已经依赖 Airflow 管理关键的 AI/ML 流水线,Airflow 3 所提供的更高效率和可靠性将有助于提升整个组织对这些数据产品的信任度和韧性。”
这对企业 AI 采用意味着什么
对于评估数据编排策略的技术决策者而言,Airflow 3.0 提供了分阶段实施的切实可行的优势。
第一步是评估现有的数据工作流,找出那些能够从新事件驱动能力中受益的数据管道。组织可以识别目前触发定时任务的数据流,而采用事件驱动触发机制则可更高效地管理这些流程。此举能够显著降低处理延迟,并消除无谓的轮询操作。
接下来,技术领导者应评估自身的开发环境,以确定 Airflow 新增的语言支持是否可以整合各自独立的编排工具。目前为不同语言环境维护分散工具的团队可以开始规划迁移策略,从而简化技术栈。
对于在 AI 实施上走在前沿的企业来说,Airflow 3.0 代表了一个关键的基础设施组件,能够解决 AI 采用中的重大挑战——在企业级别下编排复杂、多阶段的 AI 工作流。该平台协调复合 AI 系统的能力有助于企业从试点阶段迈向具备适当治理、安全性与可靠性的全企业 AI 部署。
好文章,需要你的鼓励
CoreWeave发布AI对象存储服务,采用本地对象传输加速器(LOTA)技术,可在全球范围内高速传输对象数据,无出口费用或请求交易分层费用。该技术通过智能代理在每个GPU节点上加速数据传输,提供高达每GPU 7 GBps的吞吐量,可扩展至数十万个GPU。服务采用三层自动定价模式,为客户的AI工作负载降低超过75%的存储成本。
清华大学、新加坡国立大学等顶尖高校联合发布重大AI研究成果,创新性地提出变分推理框架解决AI推理训练中的偏见问题。该方法将AI思考过程分解为思维轨迹和答案两部分,通过"思考教练"机制避免AI偏向简单问题的毛病。实验显示在数学、编程等多个领域均有显著提升,为构建更智能可靠的AI系统奠定基础。
谷歌DeepMind与核聚变初创公司CFS合作,运用先进AI模型帮助管理和改进即将发布的Sparc反应堆。DeepMind开发了名为Torax的专用软件来模拟等离子体,结合强化学习等AI技术寻找最佳核聚变控制方式。核聚变被视为清洁能源的圣杯,可提供几乎无限的零碳排放能源。谷歌已投资CFS并承诺购买其200兆瓦电力。
新加坡国立大学等机构研究团队提出反馈条件策略(FCP),让AI直接从文字反馈学习而非转换为数字评分。该方法在数学和通用推理任务上表现优异,能处理复杂混合反馈,支持灵活的行为控制,避免了传统强化学习中的奖励黑客问题,为AI训练开辟了新路径。