将来自不同来源的数据移动到适用于 AI 的正确位置是一项具有挑战性的任务。这正是 Apache Airflow 等数据编排技术发挥作用的地方。
今天,Apache Airflow 社区推出了数年来最大更新,发布了 3.0 版本。此次发布标志着四年以来的首次重大版本更新。尽管如此,Airflow 在 2.x 系列上一直保持活跃,并在 2024 年先后发布了 2.9 和 2.10 更新,这两个版本都重点关注 AI。
近年来,数据工程师已经将 Apache Airflow 作为其事实标准工具。Apache Airflow 已确立自己为领先的开源工作流编排平台,拥有超过 3000 名贡献者,并在众多《财富》500 强公司中得到广泛应用。此外,还基于该平台构建了多个商业服务,包括 Astronomer Astro、Google Cloud Composer、Amazon Managed Workflows for Apache Airflow ( project management committee ) ( MWAA ) 和 Microsoft Azure Data Factory Managed Airflow 等。
随着组织在不同系统、云环境以及日益增长的 AI 工作负载中协调数据工作流难度不断加大,企业的需求也在持续上升。Apache Airflow 3.0 通过架构重构应对了关键企业需求,有望改善组织构建和部署数据应用的方式。
“在我看来,Airflow 3 是一个全新的开始,它为一系列更强大的功能奠定了基础,”Apache Airflow PMC ( project management committee ) 成员、Astronomer 首席战略官 Vikram Koka 在接受 VentureBeat 独家采访时表示。“这几乎是基于企业向我们反馈所需的下一阶段关键任务采用而进行的全面重构。”
企业数据复杂性改变了数据编排需求
随着企业越来越依赖数据驱动决策,数据工作流的复杂性激增。如今,组织需要管理跨多个云环境、各种数据来源以及日益复杂的 AI 工作负载的繁复管道。
Airflow 3.0 应运而生,专为满足这些不断变化的企业需求而设计。与以往版本不同,此次发布摒弃了整体打包模式,推出了分布式客户端模型,从而提升了灵活性和安全性。新架构使企业能够:
o 在多个云环境中执行任务。 o 实现细粒度的安全控制。 o 支持多种编程语言。 o 实现真正的多云部署。
Airflow 3.0 扩展的语言支持同样引人关注。虽然以往版本主要以 Python 为中心,但本次发布原生支持多种编程语言。
Airflow 3.0 将支持 Python 和 Go,并计划支持 Java、TypeScript 和 Rust。这种做法意味着数据工程师可以使用自己偏好的编程语言编写任务,从而降低了工作流开发和整合过程中的摩擦。
事件驱动功能变革数据工作流
Airflow 一直擅长定时批量处理,但企业对实时数据处理能力的需求日益增加。Airflow 3.0 现已支持这一需求。
“Airflow 3 的一个关键变化是我们称之为事件驱动调度,”Koka 解释道。
Airflow 不再每小时运行一次数据处理任务,而是在特定数据文件上传或特定消息出现时自动启动任务。这可能包括上传到 Amazon S3 云存储桶中的数据,或者在 Apache Kafka 中出现的流数据消息。
事件驱动调度功能弥补了传统 ETL ( Extract, Transform and Load ) 工具与 Apache Flink 或 Apache Spark Structured Streaming 等流处理框架之间的关键差距,使得组织可以通过统一的编排层同时处理定时和事件触发的工作流。
Airflow 将加速企业 AI 推理执行与复合 AI
事件驱动数据编排还将帮助 Airflow 支持快速推理执行。
例如,Koka 详细介绍了一个场景:利用实时推理为法律计时等专业服务提供支持。在该场景中,Airflow 可用于从日历、电子邮件和文档等多个来源收集原始数据。随后,大语言模型 ( LLM ) 能将非结构化信息转换为结构化数据,再利用另一预训练模型对结构化的计时数据进行分析,判定工作是否可计费,并分配相应的计费代码和费率。
Koka 将这种方法称为复合 AI 系统——一种通过串联不同 AI 模型以高效、智能地完成复杂任务的工作流。Airflow 3.0 的事件驱动架构使这种实时、多步骤推理过程在各种企业场景中得以实现。
复合 AI 是由 Berkeley 人工智能研究中心于 2024 年首次提出的一种方法,与 agentic AI 略有不同。Koka 解释说,agentic AI 允许自主进行 AI 决策,而复合 AI 则通过预定义的工作流在商业场景中更为可预测和可靠。
与 Airflow 携手: Texas Rangers 如何期待获益
众多 Airflow 用户中包括德州游骑兵( Texas Rangers )这支大联盟棒球队。
Texas Rangers 棒球队的全栈数据工程师 Oliver Dykstra 告诉 VentureBeat,该团队使用托管在 Astronomer Astro 平台上的 Airflow 作为棒球数据运营的“神经中枢”。他说,所有关于球员发展、合同、分析以及比赛数据的工作流均通过 Airflow 进行编排。
“我们非常期待升级到 Airflow 3 及其在事件驱动调度、可观察性和数据血缘方面的改进,”Dykstra 表示。“既然我们已经依赖 Airflow 管理关键的 AI/ML 流水线,Airflow 3 所提供的更高效率和可靠性将有助于提升整个组织对这些数据产品的信任度和韧性。”
这对企业 AI 采用意味着什么
对于评估数据编排策略的技术决策者而言,Airflow 3.0 提供了分阶段实施的切实可行的优势。
第一步是评估现有的数据工作流,找出那些能够从新事件驱动能力中受益的数据管道。组织可以识别目前触发定时任务的数据流,而采用事件驱动触发机制则可更高效地管理这些流程。此举能够显著降低处理延迟,并消除无谓的轮询操作。
接下来,技术领导者应评估自身的开发环境,以确定 Airflow 新增的语言支持是否可以整合各自独立的编排工具。目前为不同语言环境维护分散工具的团队可以开始规划迁移策略,从而简化技术栈。
对于在 AI 实施上走在前沿的企业来说,Airflow 3.0 代表了一个关键的基础设施组件,能够解决 AI 采用中的重大挑战——在企业级别下编排复杂、多阶段的 AI 工作流。该平台协调复合 AI 系统的能力有助于企业从试点阶段迈向具备适当治理、安全性与可靠性的全企业 AI 部署。
好文章,需要你的鼓励
机器人和自动化工具已成为云环境中最大的安全威胁,网络犯罪分子率先应用自动化决策来窃取凭证和执行恶意活动。自动化攻击显著缩短了攻击者驻留时间,从传统的数天减少到5分钟内即可完成数据泄露。随着大语言模型的发展,"黑客机器人"将变得更加先进。企业面临AI快速采用压力,但多数组织错误地关注模型本身而非基础设施安全。解决方案是将AI工作负载视为普通云工作负载,应用运行时安全最佳实践。
MBZUAI研究团队发布了史上最大的开源数学训练数据集MegaMath,包含3716亿个Token,是现有开源数学数据集的数十倍。该数据集通过创新的数据处理技术,从网页、代码库和AI合成等多个来源收集高质量数学内容。实验显示,使用MegaMath训练的AI模型在数学推理任务上性能显著提升,为AI数学能力发展提供了强大支撑。
面对心理健康专业人士短缺问题,谷歌、麦肯锡和加拿大重大挑战组织联合发布《心理健康与AI现场指南》,提出利用AI辅助任务分担模式。该指南构建了包含项目适应、人员选择、培训、分配、干预和完成六个阶段的任务分担模型,AI可在候选人筛选、培训定制、客户匹配、预约调度和治疗建议等环节发挥作用。该方法通过将部分治疗任务分配给经过培训的非专业人员,并运用AI进行管理支持,有望缓解治疗服务供需失衡问题。
这项由多个知名机构联合开展的研究揭示了AI系统的"隐形思维"——潜在推理。不同于传统的链式思维推理,潜在推理在AI内部连续空间中进行,不受语言表达限制,信息处理能力提升约2700倍。研究将其分为垂直递归和水平递归两类,前者通过重复处理增加思考深度,后者通过状态演化扩展记忆容量。