驯服数据混乱:为企业构建AI就绪的数据平台

企业AI已达到关键转折点,但大多数项目在产生价值前就停滞了。数据科学家需要使用7-15个工具来处理数据,仍需数月才能获得可用状态。IDC研究显示,不到44%的AI试点项目能投入生产。问题不在于算力或模型架构,而是无法在碎片化异构环境中实现数据管道的运营化。Hammerspace AI数据平台通过统一数据命名空间和自动化数据编排,解决了企业数据孤岛问题,为AI工作负载提供高性能统一数据平面。

企业AI已达到关键转折点。组织急于构建生成式、智能体和领域特定的AI系统,但大多数项目在交付可衡量价值之前就停滞了。

数据科学家现在需要同时使用7到15个工具来移动、清理和准备数据,仍需要花费数月时间才能达到可用状态。这个过程通常需要在多个存储技术、企业站点和云位置之间重复进行。这种复杂性和手动干预是AI生产力的重大障碍。

根据IDC的数据,尽管IT采购者在AI和支持AI的硬件基础设施上投入巨资,但只有不到一半(44%)的AI试点项目能够进入生产环境。问题不在于计算能力或模型架构,而在于无法在碎片化、异构环境中操作化数据管道。

IDC的AI就绪数据存储基础设施白皮书强调了真正的瓶颈:AI成功需要以数据为中心的基础。模型性能取决于数据的质量、及时性和可访问性,而大多数企业仍深陷数据混乱之中。

核心数据挑战:碎片化和孤立的基础设施

现代企业数据资产跨越本地系统、多个云和大量文件及对象存储。传统方法,如将大型非结构化数据集迁移或复制到专门的高性能孤岛中,会带来成本、延迟和治理风险。

随着组织部署GPU驱动的集群用于AI和深度学习,他们面临一系列叠加的挑战:

高性能和大规模:AI管道需要可扩展的I/O吞吐量和超低延迟的数据访问来进行训练和推理。在不过度配置的情况下扩展,以及将工作负载突发到云的能力是必不可少的。

多源数据访问:数据科学家和工程师需要无缝访问存储在NFS、SMB、S3和其他存储类型中的数据,这些数据通常分布在不同的供应商、站点和云中。

治理和合规:在孤岛间移动数据会增加暴露和合规风险。企业必须在数据集跨环境传输时保持一致的可审计性、访问控制和数据血缘。

基于标准的集成:AI平台需要通过开放协议和API扩展现有基础设施,最大限度地减少对专有客户端或中间件的依赖。

弹性计算与云突发:临时GPU需求,无论是短期实验还是有限规模的推理,都需要能够无缝地将数据管道扩展到云计算,而无需昂贵的复制。

忽视这些原则的结果是运营阻力:数据集碎片化、冗余副本、资本支出上升,以及在模型训练或生产推理开始之前就长达数月的数据准备周期。

Hammerspace AI数据平台:迈向统一的AI数据平台

AI工作流程因用例而异,从医学影像和视频分析到自主系统和制造优化,但都有一个共同的依赖:快速、受治理的访问分布式非结构化数据。

大多数组织仍然依赖手动文件传输或临时编排脚本来供给GPU集群,这在生产工作负载下无法扩展。企业AI数据基础设施的下一次演进必须抽象化这些复杂性。

在NVIDIA GTC 2025上发布的Hammerspace AI数据平台与NVIDIA AI数据平台(AIDP)参考设计保持一致,直接解决这种碎片化问题。这个创新的新解决方案消除了昂贵的基础设施大修或新存储孤岛的需要,使企业能够无缝利用现有数据进行加速AI计算。

Hammerspace是NVIDIA Inception项目的成员,它统一了跨不同存储架构、地理位置和协议的非结构化企业数据,使组织能够以前所未有的速度将原始数据转换为AI就绪的智能。通过利用现有基础设施并随着不断增长的需求无缝扩展,该平台为检索增强生成(RAG)、复杂的智能体工作流程和新兴的物理AI时代提供了坚实的基础。通过Hammerspace,企业能够更快地实现AI驱动的成果,推动创新和竞争优势。

Hammerspace不是创建新的数据孤岛,而是将跨站点和云的现有存储虚拟化到单一全球命名空间中,为AI工作负载提供统一的数据平面。通过数据同化,它使数百万个文件可以在环境中即时访问,而无需移动一个字节。

关键架构功能包括:

开放的基于标准的协议(NFS、SMB、S3、pNFS)在不受专有锁定的情况下向最快的GPU提供高性能数据。

Tier-0 NVMe架构将本地GPU存储集成到共享的超快池中,使每个节点都成为高性能贡献者。

模型上下文协议(MCP)集成将业务数据直接链接到AI智能体,用于检索增强推理。

嵌入式向量数据库将文件转换为可搜索的嵌入,以便在全球数据资产中进行上下文实时访问。

这种架构使AI平台能够将GPU计算直接连接到数据所在的任何位置,消除了大规模迁移或新存储库构建的需要。

使用Hammerspace的自动化数据目标和与AI智能体的紧密集成,数据被智能标记、分层,并在正确的时间放置在正确的位置,优化性能和成本。这种自动化确保训练和推理工作负载始终能够立即访问所需的数据,无需手动数据移动或复杂的集成层,增强和加速AI查询。

对pNFS、NFS、SMB和S3的多协议支持,以及POSIX兼容的文件访问,确保与现有企业应用程序的兼容性,同时为用户和AI系统保持即时访问。

Hammerspace战略合作伙伴关系副总裁Jeff Echols表示:"企业需要为AI解锁其现有数据的力量,而无需重建整个基础设施。Hammerspace数据平台消除了传统孤岛的混乱,允许组织立即在任何地方为AI智能体提供数据,同时保持完全控制和治理。"

NVIDIA企业平台高级总监Anne Hecht表示:"AI突破始于快速访问正确的数据,这需要为规模和敏捷性而构建的全栈存储。基于NVIDIA AI数据平台参考设计构建的Hammerspace数据平台将AI智能体连接到它们所依赖的数据,推动更快的推理以加速创新和洞察。"

为什么统一数据平台对AI基础设施团队很重要

对于基础设施架构师和数据平台工程师来说,这代表了从数据存储到数据编排的转变:

加速AI价值实现时间:在几周而不是几个月内交付生产就绪的数据。

减少基础设施浪费:利用现有资源;只在需要时扩展。

简化运营:一个平台、一个命名空间、零孤岛。

赋能团队:释放稀缺的数据工程师专注于创新而非集成。

了解领先企业如何通过数据编排自动化加速AI实现时间。

将数据混乱转化为AI就绪的智能

底线:AI成功始于AI就绪的数据。

Hammerspace AI数据平台将碎片化的企业数据转换为受治理、统一和高性能的数据资源。它为组织提供了从想法到洞察的直接路径,无需昂贵的迁移,无混乱。

准备好应对您的数据挑战了吗?

与我们的专家联系,探索将现有基础设施转换为统一、AI就绪数据基础的实用方法。没有炒作,只有真实结果。

Q&A

Q1:为什么大多数AI试点项目无法进入生产环境?

A:根据IDC数据,虽然IT采购者在AI和硬件基础设施上投入巨资,但只有44%的AI试点项目能够进入生产环境。主要问题不在于计算能力或模型架构,而在于无法在碎片化、异构环境中操作化数据管道,以及数据科学家需要使用7到15个工具来处理数据。

Q2:Hammerspace AI数据平台有什么核心优势?

A:Hammerspace将跨站点和云的现有存储虚拟化到单一全球命名空间中,支持开放标准协议(NFS、SMB、S3、pNFS),集成Tier-0 NVMe架构和嵌入式向量数据库,使数百万文件可即时访问而无需移动数据,消除了昂贵迁移的需要。

Q3:企业如何通过统一数据平台加速AI价值实现?

A:统一数据平台帮助企业在几周而不是几个月内交付生产就绪的数据,减少基础设施浪费,简化运营到一个平台、一个命名空间、零孤岛,释放稀缺的数据工程师专注于创新而非集成,从而实现从想法到洞察的直接路径。

来源:The Register

0赞

好文章,需要你的鼓励

2025

11/20

10:41

分享

点赞

邮件订阅