谷歌开放式湖仓架构:企业AI数据应用基石

谷歌云推出开放湖仓架构,解决企业数据孤岛问题,统一结构化与非结构化数据管理。该平台基于BigLake存储引擎构建,采用Apache Iceberg开放格式,支持多模态数据处理。通过Dataplex通用目录实现数据治理,提供实时AI响应能力。平台支持BigQuery和Spark等多种引擎,与Vertex AI集成,加速模型开发,简化工具链,帮助企业快速实现AI价值。

企业一直依赖数据运营,但当数据被结构、系统或存储方式分割时,它们从未能够充分挖掘数据的全部价值。如今的企业需要灵活、治理良好的环境来支持运营和分析工作负载,这使得AI成为所有商业战略不可或缺的组成部分。

"问题不再是你是否会采用AI,而是你能多快、多有效地使用它,"谷歌云数据和分析产品管理负责人Geeta Banda表示。

企业对此有清醒认识,AI增长前景就是明证。麦肯锡认为,在十年期间,AI每年可以将美国生产力增长提高1.5%。但要参与这种增长,需要采用新的方式来挖掘数据价值。

这就是谷歌云开放式湖仓架构的用武之地。这是湖仓架构的最新发展,该架构结合了结构化和非结构化数据。谷歌在其BigLake基础上构建了这种湖仓架构版本,BigLake是一个存储引擎,为构建开放数据湖仓提供基础。它使用开放数据格式,专为大规模AI部署而设计。谷歌云承诺,这将有助于加速模型开发、改善数据治理并简化复杂的工具链。

企业成功的基础缺陷

谷歌云认为我们需要这种架构,因为太多公司试图在破碎的基础上构建AI。数十年的技术债务和架构复杂性为AI成功创造了多重障碍。

在大多数企业中,数据分散在多个云、SaaS应用程序和遗留系统中。即使是单个用例,将所有数据整合在一起也成为一项艰巨的任务。多模态数据的爆炸式增长加剧了这种复杂性。

"你最有价值的数据不再只是行和列,"Banda指出,"它存在于客户通话记录、产品图像、PDF合同和视频源中。"

"传统数据仓库无法胜任管理所有这些数据的任务,因为它们只能处理高度结构化的数据,"她断言。2000年代初期构建的BI系统无法支持非结构化数据,而且事实证明它们既不灵活又扩展成本高昂。

企业试图用能够接收大量原始数据的数据湖来弥补数据短板。但缺乏治理让它们变成了"数据沼泽"。

开放式湖仓的兴起

有AI抱负的企业需要在一个解决方案中结合数据仓库和数据湖的能力。这就是谷歌开发开放式湖仓的原因。

早期湖仓版本为数据湖存储带来了事务处理能力,但仍有自身局限性。CIO们必须决定是选择Iceberg等开放格式并自行管理复杂基础设施,还是放弃开放和互操作服务的灵活性来获得完全托管的服务。

Banda称赞谷歌的开放式湖仓是两全其美的方案:"存储、管理和激活AI项目数据的新标准。"

该托管平台基于BigLake、Iceberg原生存储、无服务器Apache Spark和Dataplex通用目录等创新技术,体现了谷歌在整个数据生命周期中统一结构化、半结构化和非结构化数据的承诺。

360度视角的组成要素

BigQuery产品负责人Gaurav Saxena确定了谷歌开放式湖仓架构与其他架构不同的三个主要特征:

谷歌为开源带来"行星级"基础设施。"我们将谷歌基础设施的精华带给开源,"他说。

它使用治理来指导AI处理所有相关数据。"我们帮助企业做的是消除孤岛,将所有数据连接到所有用例,充分利用所有数据,无论是结构化还是非结构化,"他补充道,"这就是价值所在。"

开放式湖仓支持多模态用例,让企业洞察通过不同来源和渠道进入的数据。"谷歌理解语音、音频和所有类型的数据,我们可以将其扩展到多模态数据平台,提供所有数据的360度视角,"他总结道。

开放式湖仓集成了几个相互连接的组件,包括作为基础开放表格式的Apache Iceberg。它以ACID事务、模式演进和时间旅行(使用户能够查询历史快照)的形式为数据湖存储带来仓库可靠性。

BigLake管理统一存储,在不牺牲开放性的情况下实施细粒度访问控制、性能加速和数据生命周期管理。

该平台支持可互操作的引擎,包括用于高性能SQL分析的BigQuery和用于大规模数据处理和机器学习的无服务器Spark。关键是,两个引擎都在BigLake管理的相同Iceberg数据上运行,消除了数据移动和重复。

Dataplex通用目录凭借其自动发现、编目和元数据丰富功能,为统一数据存储带来治理能力。

统一多样化数据类型

由于非结构化数据传统上是孤立的,从中提取价值需要对元数据的深入理解和将其引入统一数据平台的方法。多模态表消除了这一难题,因为它们可以结合非结构化和结构化数据,无缝扩展所有治理能力。

Dataplex通用目录通过集中分散的被动系统帮助企业统一治理。它创建涵盖所有数据资产的综合目录。目录不是静态清单,而是使用AI自动化发现、确保数据质量并跟踪数据血缘。

这种能力改变了用户可以向系统提出的问题,因为他们不再局限于结构化数据中包含的信息。Saxena举了一个零售商的例子:"哪些客户在支持电话中抱怨性能问题?"

灵活性和互操作性

易用性不仅为最终用户内置,也为开发者内置。"该平台旨在满足开发者的需求,允许他们协作而不强迫他们使用单一僵化的工具链,"Banda解释道。

例如,"数据分析师可以使用高性能SQL并继续使用BigQuery,而数据工程师和科学家也可以使用高级分析,使用他们想要的任何工具,"Banda说。界面灵活性意味着开发者不会被锁定在特定工具中。它支持BigQuery Studio、Jupyter笔记本和Looker连接。

正如Saxena指出的,开放格式是互操作性的关键。"Apache Iceberg已成为领先的开放表格式。我们已将其作为原生格式的一部分,并为其带来企业级能力,"他说。

开放式湖仓与Vertex AI(谷歌云的完全托管、统一AI开发平台)集成,为谷歌的AI平台提供动力。经过治理和编目的数据为训练模型提供可信输入,而元数据则为大语言模型提供基础,减少幻觉并提高准确性。

第三方支持使用Iceberg和API等开放标准,保持引擎无关性。组织可以使用其他Iceberg兼容引擎,并从任何来源训练模型,而不仅仅是Vertex AI。

AI加速价值实现

"简化架构和减少开销、加速数据管理、通过为开发者提供使用自选工具的灵活性来民主化开发,以及优化成本和性能,这些都加速了AI的结果和价值,"Banda断言。

统一的数据基础消除了孤岛。因此,Saxena解释说,"你可以在规模上无缝地将数据与任何用例连接,而不会让稀缺的工程资源成为瓶颈。"

AI还加速编码,增强人类能力以提高生产力。结果是,Saxena指出,"过去需要几个月的工作现在只需几天就能完成。"这是竞争优势的关键:"组织现在有更多能力进行实验并更快地将产品推向市场。"

实时响应

加速不仅是自动化的产物,也是开放式湖仓快速适应能力的产物。AI可以实时响应现实世界的事件,让企业能够立即解决和修复问题。结合AI和人在回路中的能力进行快速响应,为更广泛的部署创造了信心。

这种实时洞察水平正是企业开始要求的。他们的数据查询过去仅限于关于已发生事情的报告。但现在,正如Banda从与客户的对话中观察到的,人们希望他们的数据系统回答这个问题:"我接下来应该做什么?"

统一数据平台和AI辅助的结合使他们能够获得该问题的正确答案。谷歌希望,随着人们追求越来越复杂的AI用例,其开放式湖仓架构将通过在最小化复杂性的同时解锁结构化和非结构化数据的价值来帮助支持这些应用。

来源:The Register

0赞

好文章,需要你的鼓励

2025

07/24

09:11

分享

点赞

邮件订阅