Databricks公司今天在旧金山举办的Data + AI峰会上,揭晓了一种全新的数据架构,旨在消除企业计算领域长期存在的一大瓶颈——事务型数据库与分析型系统之间的割裂问题。与此同时,该公司还推出了一款实时分析引擎,声称可在无需独立服务基础设施的情况下实现毫秒级响应。
新架构统一事务与分析处理
这一新架构被命名为湖仓事务/分析处理(Lake Transactional/Analytical Processing,简称LTAP),能够将操作型与分析型工作负载统一运行在存储于数据湖中的单一数据副本之上。Databricks表示,该方案允许应用程序、分析系统和AI智能体直接访问同一份数据,从而彻底消除传统上用于连接操作环境与分析环境的变更数据捕获(CDC)管道、ETL流程以及复制数据库。
该公司指出,传统架构难以适应AI智能体快速兴起的新形势——这些智能体需要以近实时的速度持续读取、分析并响应数据。
"现在编写的代码比以往任何时候都多,这意味着应用程序的数量也在大幅增加,"Databricks产品管理副总裁Shanku Niyogi表示,"这些应用程序由智能体驱动,需要以比人类更快的速度对数据进行推理和操作。因此,数据栈本身就成了瓶颈所在。"
Niyogi还提到,许多企业正在为日益增多的数据同步管道所累。"我们开玩笑说,CDC其实是'持续数据污染',"他说,"每次发生变更,就会新增一条管道。"他以一家大型银行客户为例,该客户目前维护着"数十万个PostgreSQL数据库,每个都有对应的CDC管道将数据回传至数据湖"。
基于Lakebase构建
LTAP建立在Databricks去年推出的Lakebase数据库平台之上。Lakebase将数据库计算与存储解耦,LTAP则在保持PostgreSQL兼容性的同时,将事务数据直接写入Delta Lake和Apache Iceberg等开放列式格式中。
Niyogi表示,这一架构让事务型应用程序可以继续享有原生PostgreSQL的性能体验,同时使数据能够即时用于分析和机器学习工作负载。
"你获得的是Postgres的性能和语义,"他说,"但在底层,当我们将数据写入数据湖时,我们会立即以列式格式写出,这意味着任何分析引擎都能访问所有操作数据,不需要任何管道,也没有延迟。"
列式存储是一种按列而非按行顺序存储数据的数据库架构,能够显著加速分析查询。Databricks还表示,LTAP基于开放格式构建,并计划开源相关技术,使PostgreSQL数据能够以Apache Parquet格式存储,同时保持兼容性。
全新实时分析引擎登场
Databricks今天还发布了Lakehouse//RT实时分析引擎,将实时查询性能直接带入湖仓环境。以往,企业若要实现对分析数据的快速访问,往往需要在数据湖旁部署专用服务系统、缓存或实时数据库。
Lakehouse//RT由名为Reyden的全新执行引擎驱动。Databricks声称,该引擎对于小型工作负载可实现低至10毫秒的响应时间,对于大型工作负载则能达到100毫秒以内,并支持数万名并发用户和智能体同时使用。该公司表示,客户反馈的实际性能比现有实时服务架构提升了最高16倍。
Niyogi将这一产品定位为湖仓概念的重大演进。"有了Lakehouse RT,我们现在可以直接从数据仓库向数以万计的并发用户提供数据,同时保持极低延迟,"他说。
Databricks认为,上述两项发布均是AI驱动型企业的基础性技术——在这类企业中,智能体将日益承担执行业务流程和辅助运营决策的职责。
"智能体需要最优质的数据,"Niyogi表示,"如果它们获取的是过时或错误的数据,行动就会出现偏差。"他指出,由独立事务系统、分析系统和服务层组成的传统架构"根本无法支撑数百万个智能体同时运行"。
目前,LTAP作为Lakebase客户的升级选项已正式上线,Lakehouse//RT则进入公测阶段。Databricks表示,现有湖仓客户可将Lakehouse//RT作为现有数据仓库部署的直接替代方案,并通过现有订阅获得访问权限,首年还将提供优惠定价。
Q&A
Q1:LTAP架构是什么?它如何解决传统数据管道的问题?
A:LTAP(湖仓事务/分析处理)是Databricks推出的新型数据架构,将操作型和分析型工作负载统一在存储于数据湖中的单一数据副本上。它通过将事务数据直接写入Delta Lake、Apache Iceberg等开放列式格式,让应用程序、分析系统和AI智能体共享同一份数据,从而消除了传统CDC管道、ETL流程和复制数据库带来的延迟与复杂性。
Q2:Lakehouse//RT的性能表现如何?
A:Lakehouse//RT由全新执行引擎Reyden驱动,小型工作负载响应时间低至10毫秒,大型工作负载可在100毫秒以内完成响应,并支持数万名并发用户和AI智能体同时访问。据客户反馈,其性能比现有实时服务架构最高提升了16倍,且无需额外部署专用服务系统或缓存。
Q3:LTAP和Lakehouse//RT现在可以使用了吗?
A:目前,LTAP已作为Lakebase现有客户的升级选项正式上线;Lakehouse//RT则处于公测(Beta)阶段。现有湖仓客户可将Lakehouse//RT作为现有仓库部署的直接替代方案,通过已有订阅获得访问权限,并享受首年优惠定价。
好文章,需要你的鼓励
2025年1月,OpenAI、软银、甲骨文和MGX联合宣布"星际之门"计划,承诺投资5000亿美元,部署高达10GW算力基础设施。如今,该项目已从白宫发布会上的宏大承诺,演变为一场前所未有规模的基础设施建设实验。项目已扩展至德克萨斯、威斯康星、俄亥俄等多地,并延伸至阿布扎比和挪威。然而,融资争议、合作伙伴摩擦、能源压力及政策监管收紧,正考验着这一"AI工业园"模式能否真正落地。
阿里Qwen团队通过引入强化学习和在线策略蒸馏,将Qwen-Image-2.0升级为Qwen-Image-2.0-RL,让图像生成模型真正学会人类审美,文生图Elo评分提升78分,图像编辑提升93分。
加密货币交易所OKX正式推出AI智能体交易市场OKX AI,允许AI代理相互雇佣、自主结算,并建立基于区块链的可携带信誉档案。该平台经过50家早期服务商封测后向开发者开放,依托稳定币和链上支付基础设施,支持全天候微支付。OKX创始人徐明星表示,传统金融基础设施为人类而建,智能体经济需要为自主软件专门设计的基础设施。
港科大与快手联合提出NormGuard,针对流匹配模型强化学习训练中速度范数膨胀问题,通过训练时单向惩罚约束,在保留奖励的同时改善图像真实感。