企业级AI数据平台:将数据混乱转化为AI就绪的智能系统

企业AI发展到关键节点,但多数项目在产生价值前就陷入停滞。数据科学家需要使用7-15种工具来处理数据,仍需数月时间才能获得可用状态。IDC显示仅44%的AI试点项目进入生产阶段。Hammerspace AI数据平台在NVIDIA GTC 2025上发布,通过虚拟化现有存储创建统一全局命名空间,支持多协议访问,内置向量数据库,让企业无需昂贵基础设施改造即可将现有数据转化为AI就绪资源。

企业级AI已经到达关键转折点。组织急于构建生成式、智能体和特定领域的AI系统,但大多数项目在产生可衡量价值之前就陷入停滞。

数据科学家现在需要使用7-15种工具来移动、清洗和准备数据,仍然需要花费数月时间才能达到可用状态。这个过程往往需要在多种存储技术、企业站点和云位置上重复进行。这种复杂性和人工干预是AI生产力的重大障碍。

根据IDC报告,虽然IT采购者在AI和支持AI的硬件基础设施上投资巨大,但只有不到一半(44%)的AI试点项目进入生产阶段。问题不在于计算能力或模型架构,而在于无法在分散的异构环境中操作化数据管道。

IDC的AI就绪数据存储基础设施白皮书强调了真正的瓶颈:AI成功需要以数据为中心的基础。模型性能取决于数据的质量、及时性和可访问性,而大多数企业仍然陷入数据混乱中。

核心数据挑战:碎片化和孤立的基础设施

现代企业数据资产跨越本地系统、多个云和大量文件及对象存储。传统方法,如将大型非结构化数据集迁移或复制到专门的高性能孤岛中,会带来成本、延迟和治理风险。

当组织部署GPU集群用于AI和深度学习时,面临一系列额外挑战:

高性能和大规模:AI管道需要可扩展的I/O吞吐量和超低延迟的数据访问来进行训练和推理。在不过度配置的情况下向上和向外扩展,以及将工作负载突发到云端的能力至关重要。

多源数据访问:数据科学家和工程师需要无缝访问存储在NFS、SMB、S3和其他存储类型中的数据,这些数据通常分布在不同供应商、站点和云中。

治理和合规性:在孤岛间移动数据会增加暴露和合规风险。企业必须在数据集跨环境传输时保持一致的可审计性、访问控制和数据血缘。

基于标准的集成:AI平台需要通过开放协议和API扩展现有基础设施,最小化对专有客户端或中间件的依赖。

弹性计算与云突发:临时GPU需求,无论是短期实验还是有限规模推理,都需要能够无缝将数据管道扩展到云计算,而无需昂贵的复制。

忽视这些原则的结果是操作拖累:数据集碎片化、冗余副本、资本支出上升,以及在模型训练或生产推理开始之前长达数月的数据准备周期。

Hammerspace AI数据平台:迈向统一的AI数据平台

AI工作流因用例而异,从医学成像和视频分析到自主系统和制造优化,但都有一个共同依赖:对分布式非结构化数据的快速、受控访问。

大多数组织仍然依赖手动文件传输或临时编排脚本来供应GPU集群,这在生产工作负载下无法扩展。企业AI数据基础设施的下一个演进必须抽象这些复杂性。

在NVIDIA GTC 2025上发布的Hammerspace AI数据平台与NVIDIA AI数据平台参考设计保持一致,直接解决这种碎片化问题。这一创新解决方案消除了昂贵基础设施改造或新存储孤岛的需求,使企业能够无缝利用现有数据进行加速AI计算。

作为NVIDIA Inception项目成员,Hammerspace统一了跨不同存储架构、地理位置和协议的非结构化企业数据,使组织能够以前所未有的速度将原始数据转化为AI就绪的智能。通过利用现有基础设施并随增长需求无缝扩展,该平台为检索增强生成(RAG)、复杂智能体工作流和新兴的物理AI时代提供了强大基础。借助Hammerspace,企业能够更快实现AI驱动的成果,推动创新和竞争优势。

Hammerspace不是创建新的数据孤岛,而是将跨站点和云的现有存储虚拟化为单一全局命名空间,为AI工作负载提供统一的数据平面。通过数据同化,它使数百万文件在各环境中立即可访问,而无需移动单个字节。

关键架构能力包括:

开放、基于标准的协议(NFS、SMB、S3、pNFS)在无专有锁定的情况下向最快的GPU提供高性能数据。

Tier-0 NVMe架构将本地GPU存储集成到共享的超高速池中,将每个节点转变为高性能贡献者。

模型上下文协议(MCP)集成将业务数据直接链接到智能体,用于检索增强推理。

嵌入式向量数据库将文件转换为可搜索的嵌入,用于跨全球数据资产的上下文实时访问。

这种架构使AI平台能够直接将GPU计算连接到数据所在的任何位置,消除了大规模迁移或新存储库建设的需求。

使用Hammerspace的自动化数据目标和与智能体的紧密集成,数据被智能标记、分层并在适当时间放置在适当位置,优化性能和成本。这种自动化确保训练和推理工作负载始终能够立即访问所需数据,无需手动数据移动或复杂集成层,增强和加速AI查询。

对pNFS、NFS、SMB和S3的多协议支持,以及符合POSIX的文件访问,确保与现有企业应用程序的兼容性,同时为用户和AI系统维持即时访问。

"企业需要在不重建整个基础设施的情况下为AI释放现有数据的力量," Hammerspace战略合作伙伴关系副总裁Jeff Echols表示。"Hammerspace数据平台消除了传统孤岛的混乱,允许组织在任何地方即时向智能体提供数据,同时保持完全控制和治理。"

"AI突破始于快速访问正确的数据,这需要为规模和敏捷性而构建的全栈存储," NVIDIA企业平台高级总监Anne Hecht表示。"基于NVIDIA AI数据平台参考设计构建,Hammerspace数据平台将智能体连接到它们依赖的数据,推动更快推理以加速创新和洞察。"

为什么统一数据平台对AI基础设施团队很重要

对于基础设施架构师和数据平台工程师来说,这代表了从数据存储到数据编排的转变:

加速AI价值实现时间:在几周而不是几个月内交付生产就绪的数据。

减少基础设施浪费:利用现有资源;仅在需要时扩展。

简化操作:一个平台,一个命名空间,零孤岛。

赋能团队:释放稀缺的数据工程师专注于创新,而不是集成。

查看领先企业如何通过数据编排自动化加速AI实现时间。

将数据混乱转化为AI就绪的智能

核心要点:AI成功始于AI就绪的数据。

Hammerspace AI数据平台将碎片化的企业数据转换为受控、统一和高性能的数据资源。它为组织提供了从想法到洞察的直接路径,无需昂贵的迁移,无需混乱。

Q&A

Q1:Hammerspace AI数据平台能解决什么问题?

A:Hammerspace AI数据平台主要解决企业数据碎片化和孤立化问题。它将跨站点和云的现有存储虚拟化为单一全局命名空间,使数百万文件在各环境中立即可访问,而无需移动数据或创建新的存储孤岛,从而消除了AI项目中数据准备的复杂性和延迟。

Q2:该平台如何与现有基础设施集成?

A:平台采用开放、基于标准的协议(包括NFS、SMB、S3、pNFS),支持多协议访问和符合POSIX的文件访问,确保与现有企业应用程序完全兼容。它不需要昂贵的基础设施改造,而是利用现有基础设施并随需求增长无缝扩展。

Q3:使用Hammerspace平台对企业有什么实际好处?

A:企业可以获得四个关键优势:加速AI价值实现时间,在几周而不是几个月内交付生产就绪的数据;减少基础设施浪费,充分利用现有资源;简化操作,实现一个平台、一个命名空间、零孤岛;释放数据工程师专注于创新而不是数据集成工作。

来源:BLOCKS & FILES

0赞

好文章,需要你的鼓励

2025

11/21

08:11

分享

点赞

邮件订阅