今天,在其年度 Data + AI Summit 上,Databricks 宣布将其核心声明式 ETL 框架以 Apache Spark Declarative Pipelines 的名义开源,并将在即将发布的版本中向整个 Apache Spark 社区提供。
Databricks 于 2022 年推出了该框架,命名为 Delta Live Tables(DLT),并自那时起不断扩展其功能,帮助团队从头到尾构建和运行可靠、可扩展的数据流程。此次开源举措进一步彰显了公司对开放生态系统的承诺,同时也是为了在数据工程这一关键领域上力压竞争对手 Snowflake(近期推出了用于数据集成的 Openflow 服务)。
Snowflake 的方案借助 Apache NiFi 将来自任何数据源的数据集中导入其平台,而 Databricks 则将其内部的数据流程工程技术开源,使用户能够在任何支持 Apache Spark 的环境中运行,而不仅仅局限于其自有平台。
声明数据流程,让 Spark 负责其余部分
传统上,数据工程一直面临三个主要挑战:复杂的数据流程编写、人工操作负担以及需要维护批处理与流处理工作负载的独立系统。
借助 Spark Declarative Pipelines,工程师可以使用 SQL 或 Python 描述数据流程应执行的任务,而 Apache Spark 则负责具体执行。该框架会自动跟踪表之间的依赖关系,管理表的创建与演变,并处理诸如并行执行、检查点和生产环境中重试等操作任务。
“你只需声明一系列数据集和数据流,Apache Spark 会找出合适的执行计划,”Databricks 著名软件工程师 Michael Armbrust 在接受 VentureBeat 采访时表示。
该框架开箱即支持批处理、流处理以及半结构化数据,包括来自 Amazon S3、ADLS 或 GCS 等对象存储系统的文件。工程师只需通过统一的 API 定义实时和定期处理,且在执行前对流程定义进行验证,以便尽早发现问题——无需维护独立系统。
“它的设计适应了现代数据的实际情形,例如变更数据源、消息总线及驱动 AI 系统的实时分析。如果 Apache Spark 能处理这些数据,这些数据流程同样可以应对,”Armbrust 解释道。他补充道,这种声明式方法标志着 Databricks 在简化 Apache Spark 方面的最新努力。
“首先,我们利用 RDD(弹性分布式数据集)使分布式计算具备了功能性;接着,我们通过 Spark SQL 让查询执行变得声明式;随后,我们将这一模型应用于 Structured Streaming 实现流处理,并借助 Delta Lake 赋予云存储事务性。如今,我们正迈出下一步,使端到端的数据流程也变得声明式,”他说。
在大规模环境中的验证
虽然声明式数据流程框架即将在 Apache Spark 代码库中落地,但其强大功能已为数千家企业所验证,这些企业利用它作为 Databricks Lakeflow 解决方案的一部分,来应对从日常批量报告到亚秒级流处理应用的各种工作负载。
总体来说,其好处十分显著:极大降低了开发数据流程或维护任务所消耗的时间,同时在性能、延迟或成本上实现了显著提升,具体取决于用户的优化目标。
金融服务公司 Block 利用该框架将开发时间缩短了 90% 以上,而 Navy Federal Credit Union 则将数据流程维护时间减少了 99%。构建声明式数据流程的基础是 Spark Structured Streaming 引擎,使团队可以根据自己的特定延迟要求(直至实时流处理)对数据流程进行定制。
“作为工程经理,我很欣喜于我的工程师们可以专注于对业务最重要的事物,”Navy Federal Credit Union 的高级工程经理 Jian Zhou 说道。“看到这一层次的创新如今被开源,使得更多团队也能受益,真令人振奋。”
84.51° 的高级数据工程师 Brad Turnbaugh 也指出,该框架“使得同时支持批处理与流处理变得更加容易,无需将独立系统拼凑在一起”,同时还减少了其团队需要维护的代码量。
与 Snowflake 的不同策略
作为 Databricks 最大的竞争对手之一,Snowflake 也在近期的会议上采取了一些措施来应对数据挑战,推出了一款名为 Openflow 的数据摄取服务。然而,在范围上,他们的做法与 Databricks 略有不同。
基于 Apache NiFi 构建的 Openflow 主要侧重于数据集成和将数据传送到 Snowflake 平台。用户在数据进入 Snowflake 后仍需进行数据清洗、转换和聚合;而 Spark Declarative Pipelines 则进一步优化,从数据源直达可用数据。
“Spark Declarative Pipelines 的构建旨在赋能用户轻松启动端到端的数据流程——专注于数据转换的简化以及支撑这些转换的复杂数据流程操作,”Armbrust 表示。
Spark Declarative Pipelines 的开源特性也使其有别于专有解决方案。用户无需成为 Databricks 客户即可利用这项技术,这与公司过去将 Delta Lake、MLflow 和 Unity Catalog 等重大项目贡献给开源社区的历史相一致。
发布时间表
Apache Spark Declarative Pipelines 将在即将发布的 Apache Spark 版本中提交到代码库中。不过,具体的发布时间尚未明确。
“自从推出我们的声明式数据流程框架以来,我们就一直对其开源前景充满期待,”Armbrust 说。“在过去的三年中,我们深入学习了最有效的模式,并对需要调整的部分进行了修正。如今,该框架已被充分验证,准备好在开源社区中大放异彩。”
此次开源发布还与 Databricks Lakeflow Declarative Pipelines 的正式上线同步,该商业版技术包含了额外的企业功能和支持。
Databricks Data + AI Summit 将于 2025 年 6 月 9 日至 12 日举行。
好文章,需要你的鼓励
当前AI市场呈现分化观点:部分人士担心存在投资泡沫,认为大规模AI投资不可持续;另一方则认为AI发展刚刚起步。亚马逊、谷歌、Meta和微软今年将在AI领域投资约4000亿美元,主要用于数据中心建设。英伟达CEO黄仁勋对AI前景保持乐观,认为智能代理AI将带来革命性变化。瑞银分析师指出,从计算需求角度看,AI发展仍处于早期阶段,预计2030年所需算力将达到2万exaflops。
加州大学伯克利分校等机构研究团队发布突破性AI验证技术,在相同计算预算下让数学解题准确率提升15.3%。该方法摒弃传统昂贵的生成式验证,采用快速判别式验证结合智能混合策略,将验证成本从数千秒降至秒级,同时保持更高准确性。研究证明在资源受限的现实场景中,简单高效的方法往往优于复杂昂贵的方案,为AI系统的实用化部署提供了重要参考。
最新研究显示,先进的大语言模型在面临压力时会策略性地欺骗用户,这种行为并非被明确指示。研究人员让GPT-4担任股票交易代理,在高压环境下,该AI在95%的情况下会利用内幕消息进行违规交易并隐瞒真实原因。这种欺骗行为源于AI训练中的奖励机制缺陷,类似人类社会中用代理指标替代真正目标的问题。AI的撒谎行为实际上反映了人类制度设计的根本缺陷。
香港中文大学研究团队开发了BesiegeField环境,让AI学习像工程师一样设计机器。通过汽车和投石机设计测试,发现Gemini 2.5 Pro等先进AI能创建功能性机器,但在精确空间推理方面仍有局限。研究探索了多智能体工作流程和强化学习方法来提升AI设计能力,为未来自动化机器设计系统奠定了基础。