在2025年,企业数据平台已成为企业在云端、本地和边缘环境中运行和管理数据的基础架构。它们为从金融和供应链到客户体验和战略规划的各个领域提供支撑。随着生成式AI日益融入日常工作流程以及合规要求不断收紧,企业需要的是清洁、易于发现且随时可用的数据。企业数据供应商正在快速适应这些需求以保持竞争力。
今年早些时候我发布了关于这个市场的概述,但这个领域变化如此迅速,值得我们重新审视当前正在发生的最大变化趋势。其中之一是Apache Iceberg和Delta Lake等开放格式正在让数据在不同系统间更容易迁移,而不会被困在供应商的孤岛中。同时,基于检索增强生成和向量搜索等技术的AI就绪工具也在兴起,这些工具可以从实时数据中提取答案——这还不包括智能体AI在这些系统中令人惊叹的快速普及。除此之外,越来越多的企业正在转向统一平台,将编排、治理和元数据整合到一个地方,而不是使用零散的解决方案。具有规模和功能集的供应商正在发挥平台能力来改善其竞争地位。
在这种背景下,数据架构不再仅仅是IT技术关注点,而是保持快速、智能和竞争力的关键战略考量。因此,让我们深入了解这些新兴变化趋势如何在企业数据管理市场中发挥作用。
2025年企业数据平台的关键要素
企业数据平台正在演变为更加模块化、标准驱动的系统,而非单一供应商堆栈。首先,Apache Iceberg和Delta Lake等开放表格式现在得到广泛支持,使得构建跨云工作且能够随时间适应的架构变得更容易;这也通过使数据更容易在不同平台间移动和查询来帮助减少供应商锁定。数据平台不再将摄取、转换和治理作为独立步骤处理,而是将它们视为连接的连续过程。Snowflake、IBM、Cloudera和Informatica支持Iceberg,而Databricks通过其Unity Catalog支持两种格式,Delta Lake UniForm实现跨格式访问。开放标准的使用让组织对其数据有更多控制权,并且在不从头开始的情况下更容易切换工具。
如今的数据平台也是从基础开始为AI构建的。智能体系统可以自主处理元数据标记和数据质量检查等任务。检索增强生成使AI基于可信的企业数据,而向量搜索和嵌入管理等工具现在已成为标准。低代码功能和策略自动化也正在成为标准——不仅用于提高效率,还用于实际需求,如及早识别数据质量问题、执行合规规则和准备审计而无需大量手工工作。此时,AI已经超越了试点项目;协作助手、智能体和特定领域的自动化已嵌入到日常任务中,从简化供应链调整到标记欺诈交易。这使得技术和非技术团队都能获得更快、更一致的结果。
在基础设施方面,混合和边缘部署已成为常态。企业需要在数据生成的地方附近处理数据,特别是在医疗保健、制造业和金融等速度、隐私和控制至关重要的行业。随着传统数据中心外数据生成的增加,无缝边缘集成也变得必要。微软、IBM和Cloudera等供应商现在提供支持这种转变的边缘就绪选项。
由于生成式AI工作负载成本的增加,财务运营(FinOps)功能变得越来越重要。供应商现在提供各种解决方案,在复杂环境中提供这些成本的可见性。AWS的成本优化中心、微软增强的Fabric控制以及IBM将FinOps工具集成到其数据堆栈中都是这些解决方案的例子。财务治理正在演变为全生命周期规划,具有跟踪使用情况、预测成本并帮助团队就工作负载管理做出明智决策的工具。
同时,主权AI正在升温,因为政府和企业通常希望其AI系统在国家或地区边界内以满足隐私法律和监管期望。这种对控制的关注,特别是在国防、医疗保健和政府部门,信任和问责至关重要,正在推动新法规的发展,如美国司法部2025年数据安全计划。真正的优势将来自能够适应政策和地理的平台。考虑模型审计、边界感知部署以及对混合云、本地和边缘环境的支持。你的平台越适应性强,即使在复杂规则和不断上升的期望的世界中,也越容易保持快速发展。
在数据方面,强有力的治理现在是默认要求。血缘跟踪、策略执行和元数据标记等功能不是可有可无的——它们是预期的。更多团队也开始将数据视为产品:可重用、有良好文档记录且从一开始就受到治理的东西。
综合来看,到目前为止,供应商不能再专注于其平台的潜力。今天,重点是实际能力。买家正在寻求大规模的切实现实世界性能,以及强大的治理和可观察性以及适应的灵活性。满足这些期望的平台有望塑造企业数据战略的下一阶段。
企业数据供应商比较
企业数据平台供应商继续采取不同的路径,这些路径由其背景和战略优先级塑造。Snowflake通过Cortex AI-SQL为其SQL原生平台添加了AI,让用户直接在查询中嵌入AI。它现在通过开源Polaris Catalog支持Apache Iceberg,最近推出了OpenFlow来处理实时管道并为事件驱动用例组合结构化和非结构化数据。Cittabase使用Cortex AI-SQL自动将非结构化视觉数据转换为结构化文本摘要,使团队能够将图像衍生的洞察与关系表连接,以获得更丰富的分析。
Databricks专注于数据科学和AI优先工作流。如上所述,它支持Delta Lake和Iceberg,其Unity Catalog现在提供跨多种格式和引擎的治理。Databricks正在加倍投注互操作性和智能体驱动的自动化;这得到其LakehouseIQ的支持,这是一个通过学习组织数据上下文来实现自然语言查询的知识引擎,以及Mosaic AI,一个用于构建和治理AI模型和智能体的平台——更不用说其对Tabular(Iceberg背后的团队)的收购。DraftKings使用Databricks上的机器学习构建了实时欺诈检测系统。Coinbase使用该平台大规模监控区块链交易和标记可疑活动。这两个例子都表明了该平台在实时处理、向量搜索和机器学习工具方面的优势。
Informatica继续以元数据驱动治理领先。其Claire AI引擎现在包括Claire智能体——用于管理超越聊天式交互的数据的自主工具。它支持Iceberg并提供混合部署灵活性,吸引需要强策略控制的企业。例如,Holiday Inn Club Vacations使用Claire整合来自断开系统的客户数据,提高准确性。Paycor使用Informatica的云工具现代化其管道,加速分析和AI交付。
Cloudera发挥其在混合和边缘部署方面的优势。它依赖于开源技术,如用于流处理的NiFi和用于处理的Spark,并支持具有ACID事务和时间旅行的Iceberg——查询历史版本数据表进行审计、恢复或时点分析的能力。最近的更新添加了GPU可观察性、Nvidia H100支持和Hugging Face模型集成(包括Llama 3.2)用于AI启用的湖仓用例。制造商在边缘使用它进行预测性维护,而零售商和银行使用它保护客户数据并实时检测欺诈——平衡本地处理与集中监督。
Teradata仍然是金融和零售等行业大规模分析的首选。其VantageCloud Lake和ClearScape Analytics平台现在支持生成式和基于智能体的AI,具有新的成本跟踪和工作负载管理工具,旨在为技术和业务团队提供便利。银行和电信公司由于其强大的工作负载管理和可扩展性而将其用于合规、风险建模和审计,这些非常适合有大量数据需求的受监管行业。
IBM一直在扩展watsonx以涵盖更复杂和受监管的AI工作负载。2025年6月的更新带来了非结构化数据支持、通过DataStax的实时Cassandra集成以及通过Apache Gluon的Spark加速。今天,watsonx支持Iceberg、边缘部署和增强的向量搜索,其中包括现代管道工具和FinOps功能。Vodafone使用watsonx模拟客户交互,而保险公司通过从表格和文档中提取关键信息来自动化理赔处理——表明watsonx在混合、以合规为重点的设置中的价值。
Salesforce正在通过拟议的80亿美元收购Informatica来扩展其企业数据战略,预计将在2026年秋季完成。这可能会将Informatica的治理和AI能力扩展到Salesforce的整个堆栈——与Data Cloud、Tableau和MuleSoft集成——同时使Salesforce更直接地与Snowflake和Databricks等竞争对手竞争。2025年8月,Salesforce还完成了对Waii的收购,这是一家使用元数据知识图将自然语言查询转换为优化SQL的初创公司。Waii的技术预计将增强Data Cloud、Agentforce和Tableau Next,使用户和AI智能体能够通过对话查询与企业数据交互。
来自云服务提供商的企业数据管理产品
主要云提供商继续采取不同的方法来提供自己的企业数据平台,这些方法由他们在AI、基础设施和开发工具方面的优势塑造。AWS提供广泛的工具包,包括用于数据仓库的Redshift、用于ETL的Glue、用于机器学习的SageMaker和用于临时查询的Athena。虽然功能强大,但这些服务通常需要拼接在一起。为了提供帮助,AWS推出了用于治理的DataZone和用于更好财务跟踪的成本优化中心。同时,Greengrass支持制造、零售和现场操作中的边缘部署。
微软Azure通过Microsoft Fabric专注于集成,该平台将Synapse、Data Factory和Power BI合并到OneLake上的一个SaaS平台中。Fabric现在拥有超过17,000个客户,包括大部分财富500强企业。最近的更新添加了物化湖视图、改进的镜像和更紧密的OneLake集成。Azure Arc将Azure数据服务扩展到本地和主权环境,支持混合用例。现实世界的用例涵盖许多行业。例如,墨尔本机场使用Microsoft Fabric进行统一分析以高效管理运营数据。香奈儿将Fabric集成到其分析工作流中,平衡决策支持与强治理。微软本身在内部使用Fabric来管理复杂的大规模数据环境。
谷歌云强调AI和数据灵活性。其堆栈——BigQuery、Vertex AI和Looker——支持Iceberg和Delta Lake,允许开放、云无关的架构。Anthos实现混合和边缘编排,谷歌更新的FinOps仪表板旨在提供更好的成本可见性。该平台的开放AI工具吸引构建定制工作流的工程团队。拜耳将AlloyDB与BigQuery一起使用,在开放Iceberg格式数据上部署实时分析,与其之前的架构相比,响应速度更快,吞吐量更高。
Oracle云基础设施专注于事务和应用集成工作负载的性能。通过自治数据库和AI向量搜索,OCI与Oracle的ERP和SaaS堆栈紧密结合。虽然其边缘能力仍在成熟中,但OCI为已经标准化Oracle的企业提供稳定的定价和内置集成。作为客户使用的一个例子,DeweyVision部署Oracle自治数据库与AI向量搜索一起,在不同数据类型中提供快速、AI驱动的语义媒体搜索,改善可发现性和用户体验。
企业数据平台的战略展望
企业数据平台市场预计在未来七年翻倍——从2025年的1113亿美元增长到2032年的2435亿美元,年复合增长率为11.8%。这种增长由数据复杂性上升、AI采用、更严格的法规和持续的云扩张推动。
今天的企业需要简化操作、降低成本并使AI有用的平台。目录联邦、基于智能体的编排和AI感知成本建模等功能开始满足这些需求。新的"认知"平台将AI智能体视为活跃的数据用户——能够在没有持续人工监督的情况下采取行动。
主权AI和边缘计算也在塑造平台设计。AI系统越来越需要保持在受监管数据源附近,而边缘能力支持快速的本地处理。大多数供应商正在适应以支持两者。可持续性也开始变得更重要。企业在评估平台时开始考虑数据基础设施的环境影响。展望未来,平台选择将更少地取决于名声,更多地取决于技术契合度。最强的竞争者将提供灵活的部署、开放标准、透明的成本控制和内置治理——帮助制造业、医疗保健、金融、零售等各个领域的企业更快地行动并做出更明智的决策。
Q&A
Q1:Apache Iceberg和Delta Lake等开放格式对企业数据平台有什么好处?
A:开放表格式让企业更容易在不同系统间移动数据而不被困在供应商孤岛中,同时支持构建跨云工作且能够随时间适应的架构。Snowflake、IBM、Cloudera支持Iceberg,Databricks支持两种格式,这给组织更多数据控制权,使得在不从头开始的情况下更容易切换工具。
Q2:生成式AI如何改变企业数据平台的功能?
A:生成式AI已经从试点项目发展到嵌入日常任务中,智能体系统可以自主处理元数据标记和数据质量检查。检索增强生成使AI基于可信的企业数据,向量搜索和嵌入管理成为标准功能。协作助手、智能体和特定领域自动化现在用于从供应链调整到欺诈检测的各种任务。
Q3:企业数据平台市场未来发展趋势如何?
A:预计未来七年市场将翻倍,从2025年的1113亿美元增长到2032年的2435亿美元,年复合增长率11.8%。增长动力包括数据复杂性上升、AI采用、严格法规和云扩张。未来平台选择将更注重技术契合度而非名声,最强竞争者将提供灵活部署、开放标准、透明成本控制和内置治理。
好文章,需要你的鼓励
数据中心分类对企业选择合适设施至关重要。不同类型数据中心在可用性、运行时间和特殊服务方面存在显著差异。主要分类方法包括:层级系统(Tier I-IV)评估可靠性和冗余度;功率容量以兆瓦为单位衡量规模;可持续性认证如LEED标准;服务模式区分私有和托管设施;规模分类涵盖超大规模、传统、模块化和微型数据中心。理解这些分类体系有助于企业根据业务需求、性能期望和预算约束做出明智决策。
这项研究展示了一种革命性的AI技术,能够仅通过音频生成高度逼真的说话视频。滑铁卢大学研究团队开发的Audio2Photoreal系统巧妙结合了深度学习、扩散模型等先进技术,实现了声音到面部动作的精准转换。该技术在影视制作、在线教育、新闻媒体等领域具有广阔应用前景,将大幅降低视频制作成本和门槛。虽然仍面临计算资源需求高、隐私安全等挑战,但其突破性创新为未来视频内容创作开辟了全新路径。
2025年,企业数据平台已成为业务运营的核心支撑,随着AI深度融入日常工作流程,企业对清洁、易用的实时数据需求激增。Apache Iceberg和Delta Lake等开放格式正在打破供应商锁定,统一平台将编排、治理和元数据管理集成一体。主要厂商纷纷推出AI原生功能,支持混合云和边缘部署。预测显示,企业数据平台市场将从2025年的1113亿美元增长至2032年的2435亿美元,年复合增长率达11.8%。
腾讯和深圳大学联合开发的多视角语言理解技术取得重大突破,通过创新的训练方法让人工智能具备接近人类水平的语言理解能力。系统能准确识别讽刺、情感变化等复杂语言现象,在多项测试中表现优异,已在客服、教育、医疗等领域开始应用,未来有望广泛改善人机交互体验。