Databricks发布统一数据平台,宣告数据管道时代终结

Databricks在旧金山Data + AI峰会上发布全新数据架构LTAP(湖上事务/分析处理),旨在消除企业计算中事务数据库与分析系统长期分离的瓶颈。LTAP基于Lakebase平台,将运营与分析工作负载统一在数据湖的单一数据副本上,支持PostgreSQL兼容性,并以Delta Lake和Apache Iceberg等开放列式格式存储数据,无需ETL或CDC管道。此外,Databricks还推出实时分析引擎Lakehouse//RT,其底层执行引擎Reyden可实现最低10毫秒的查询响应时间,性能较现有架构提升最高16倍。

Databricks公司今天在旧金山举办的Data + AI峰会上,揭晓了一种全新的数据架构,旨在消除企业计算领域长期存在的一大瓶颈——事务型数据库与分析型系统之间的割裂问题。与此同时,该公司还推出了一款实时分析引擎,声称可在无需独立服务基础设施的情况下实现毫秒级响应。

新架构统一事务与分析处理

这一新架构被命名为湖仓事务/分析处理(Lake Transactional/Analytical Processing,简称LTAP),能够将操作型与分析型工作负载统一运行在存储于数据湖中的单一数据副本之上。Databricks表示,该方案允许应用程序、分析系统和AI智能体直接访问同一份数据,从而彻底消除传统上用于连接操作环境与分析环境的变更数据捕获(CDC)管道、ETL流程以及复制数据库。

该公司指出,传统架构难以适应AI智能体快速兴起的新形势——这些智能体需要以近实时的速度持续读取、分析并响应数据。

"现在编写的代码比以往任何时候都多,这意味着应用程序的数量也在大幅增加,"Databricks产品管理副总裁Shanku Niyogi表示,"这些应用程序由智能体驱动,需要以比人类更快的速度对数据进行推理和操作。因此,数据栈本身就成了瓶颈所在。"

Niyogi还提到,许多企业正在为日益增多的数据同步管道所累。"我们开玩笑说,CDC其实是'持续数据污染',"他说,"每次发生变更,就会新增一条管道。"他以一家大型银行客户为例,该客户目前维护着"数十万个PostgreSQL数据库,每个都有对应的CDC管道将数据回传至数据湖"。

基于Lakebase构建

LTAP建立在Databricks去年推出的Lakebase数据库平台之上。Lakebase将数据库计算与存储解耦,LTAP则在保持PostgreSQL兼容性的同时,将事务数据直接写入Delta Lake和Apache Iceberg等开放列式格式中。

Niyogi表示,这一架构让事务型应用程序可以继续享有原生PostgreSQL的性能体验,同时使数据能够即时用于分析和机器学习工作负载。

"你获得的是Postgres的性能和语义,"他说,"但在底层,当我们将数据写入数据湖时,我们会立即以列式格式写出,这意味着任何分析引擎都能访问所有操作数据,不需要任何管道,也没有延迟。"

列式存储是一种按列而非按行顺序存储数据的数据库架构,能够显著加速分析查询。Databricks还表示,LTAP基于开放格式构建,并计划开源相关技术,使PostgreSQL数据能够以Apache Parquet格式存储,同时保持兼容性。

全新实时分析引擎登场

Databricks今天还发布了Lakehouse//RT实时分析引擎,将实时查询性能直接带入湖仓环境。以往,企业若要实现对分析数据的快速访问,往往需要在数据湖旁部署专用服务系统、缓存或实时数据库。

Lakehouse//RT由名为Reyden的全新执行引擎驱动。Databricks声称,该引擎对于小型工作负载可实现低至10毫秒的响应时间,对于大型工作负载则能达到100毫秒以内,并支持数万名并发用户和智能体同时使用。该公司表示,客户反馈的实际性能比现有实时服务架构提升了最高16倍。

Niyogi将这一产品定位为湖仓概念的重大演进。"有了Lakehouse RT,我们现在可以直接从数据仓库向数以万计的并发用户提供数据,同时保持极低延迟,"他说。

Databricks认为,上述两项发布均是AI驱动型企业的基础性技术——在这类企业中,智能体将日益承担执行业务流程和辅助运营决策的职责。

"智能体需要最优质的数据,"Niyogi表示,"如果它们获取的是过时或错误的数据,行动就会出现偏差。"他指出,由独立事务系统、分析系统和服务层组成的传统架构"根本无法支撑数百万个智能体同时运行"。

目前,LTAP作为Lakebase客户的升级选项已正式上线,Lakehouse//RT则进入公测阶段。Databricks表示,现有湖仓客户可将Lakehouse//RT作为现有数据仓库部署的直接替代方案,并通过现有订阅获得访问权限,首年还将提供优惠定价。

Q&A

Q1:LTAP架构是什么?它如何解决传统数据管道的问题?

A:LTAP(湖仓事务/分析处理)是Databricks推出的新型数据架构,将操作型和分析型工作负载统一在存储于数据湖中的单一数据副本上。它通过将事务数据直接写入Delta Lake、Apache Iceberg等开放列式格式,让应用程序、分析系统和AI智能体共享同一份数据,从而消除了传统CDC管道、ETL流程和复制数据库带来的延迟与复杂性。

Q2:Lakehouse//RT的性能表现如何?

A:Lakehouse//RT由全新执行引擎Reyden驱动,小型工作负载响应时间低至10毫秒,大型工作负载可在100毫秒以内完成响应,并支持数万名并发用户和AI智能体同时访问。据客户反馈,其性能比现有实时服务架构最高提升了16倍,且无需额外部署专用服务系统或缓存。

Q3:LTAP和Lakehouse//RT现在可以使用了吗?

A:目前,LTAP已作为Lakebase现有客户的升级选项正式上线;Lakehouse//RT则处于公测(Beta)阶段。现有湖仓客户可将Lakehouse//RT作为现有仓库部署的直接替代方案,通过已有订阅获得访问权限,并享受首年优惠定价。

来源:SiliconANGLE

0赞

好文章,需要你的鼓励

2026

06/17

13:38

分享

点赞

邮件订阅