企业AI已达到关键转折点。组织急于构建生成式、智能体和领域特定的AI系统,但大多数项目在交付可衡量价值之前就停滞了。
数据科学家现在需要同时使用7到15个工具来移动、清理和准备数据,仍需要花费数月时间才能达到可用状态。这个过程通常需要在多个存储技术、企业站点和云位置之间重复进行。这种复杂性和手动干预是AI生产力的重大障碍。
根据IDC的数据,尽管IT采购者在AI和支持AI的硬件基础设施上投入巨资,但只有不到一半(44%)的AI试点项目能够进入生产环境。问题不在于计算能力或模型架构,而在于无法在碎片化、异构环境中操作化数据管道。
IDC的AI就绪数据存储基础设施白皮书强调了真正的瓶颈:AI成功需要以数据为中心的基础。模型性能取决于数据的质量、及时性和可访问性,而大多数企业仍深陷数据混乱之中。
核心数据挑战:碎片化和孤立的基础设施
现代企业数据资产跨越本地系统、多个云和大量文件及对象存储。传统方法,如将大型非结构化数据集迁移或复制到专门的高性能孤岛中,会带来成本、延迟和治理风险。
随着组织部署GPU驱动的集群用于AI和深度学习,他们面临一系列叠加的挑战:
高性能和大规模:AI管道需要可扩展的I/O吞吐量和超低延迟的数据访问来进行训练和推理。在不过度配置的情况下扩展,以及将工作负载突发到云的能力是必不可少的。
多源数据访问:数据科学家和工程师需要无缝访问存储在NFS、SMB、S3和其他存储类型中的数据,这些数据通常分布在不同的供应商、站点和云中。
治理和合规:在孤岛间移动数据会增加暴露和合规风险。企业必须在数据集跨环境传输时保持一致的可审计性、访问控制和数据血缘。
基于标准的集成:AI平台需要通过开放协议和API扩展现有基础设施,最大限度地减少对专有客户端或中间件的依赖。
弹性计算与云突发:临时GPU需求,无论是短期实验还是有限规模的推理,都需要能够无缝地将数据管道扩展到云计算,而无需昂贵的复制。
忽视这些原则的结果是运营阻力:数据集碎片化、冗余副本、资本支出上升,以及在模型训练或生产推理开始之前就长达数月的数据准备周期。
Hammerspace AI数据平台:迈向统一的AI数据平台
AI工作流程因用例而异,从医学影像和视频分析到自主系统和制造优化,但都有一个共同的依赖:快速、受治理的访问分布式非结构化数据。
大多数组织仍然依赖手动文件传输或临时编排脚本来供给GPU集群,这在生产工作负载下无法扩展。企业AI数据基础设施的下一次演进必须抽象化这些复杂性。
在NVIDIA GTC 2025上发布的Hammerspace AI数据平台与NVIDIA AI数据平台(AIDP)参考设计保持一致,直接解决这种碎片化问题。这个创新的新解决方案消除了昂贵的基础设施大修或新存储孤岛的需要,使企业能够无缝利用现有数据进行加速AI计算。
Hammerspace是NVIDIA Inception项目的成员,它统一了跨不同存储架构、地理位置和协议的非结构化企业数据,使组织能够以前所未有的速度将原始数据转换为AI就绪的智能。通过利用现有基础设施并随着不断增长的需求无缝扩展,该平台为检索增强生成(RAG)、复杂的智能体工作流程和新兴的物理AI时代提供了坚实的基础。通过Hammerspace,企业能够更快地实现AI驱动的成果,推动创新和竞争优势。
Hammerspace不是创建新的数据孤岛,而是将跨站点和云的现有存储虚拟化到单一全球命名空间中,为AI工作负载提供统一的数据平面。通过数据同化,它使数百万个文件可以在环境中即时访问,而无需移动一个字节。
关键架构功能包括:
开放的基于标准的协议(NFS、SMB、S3、pNFS)在不受专有锁定的情况下向最快的GPU提供高性能数据。
Tier-0 NVMe架构将本地GPU存储集成到共享的超快池中,使每个节点都成为高性能贡献者。
模型上下文协议(MCP)集成将业务数据直接链接到AI智能体,用于检索增强推理。
嵌入式向量数据库将文件转换为可搜索的嵌入,以便在全球数据资产中进行上下文实时访问。
这种架构使AI平台能够将GPU计算直接连接到数据所在的任何位置,消除了大规模迁移或新存储库构建的需要。
使用Hammerspace的自动化数据目标和与AI智能体的紧密集成,数据被智能标记、分层,并在正确的时间放置在正确的位置,优化性能和成本。这种自动化确保训练和推理工作负载始终能够立即访问所需的数据,无需手动数据移动或复杂的集成层,增强和加速AI查询。
对pNFS、NFS、SMB和S3的多协议支持,以及POSIX兼容的文件访问,确保与现有企业应用程序的兼容性,同时为用户和AI系统保持即时访问。
Hammerspace战略合作伙伴关系副总裁Jeff Echols表示:"企业需要为AI解锁其现有数据的力量,而无需重建整个基础设施。Hammerspace数据平台消除了传统孤岛的混乱,允许组织立即在任何地方为AI智能体提供数据,同时保持完全控制和治理。"
NVIDIA企业平台高级总监Anne Hecht表示:"AI突破始于快速访问正确的数据,这需要为规模和敏捷性而构建的全栈存储。基于NVIDIA AI数据平台参考设计构建的Hammerspace数据平台将AI智能体连接到它们所依赖的数据,推动更快的推理以加速创新和洞察。"
为什么统一数据平台对AI基础设施团队很重要
对于基础设施架构师和数据平台工程师来说,这代表了从数据存储到数据编排的转变:
加速AI价值实现时间:在几周而不是几个月内交付生产就绪的数据。
减少基础设施浪费:利用现有资源;只在需要时扩展。
简化运营:一个平台、一个命名空间、零孤岛。
赋能团队:释放稀缺的数据工程师专注于创新而非集成。
了解领先企业如何通过数据编排自动化加速AI实现时间。
将数据混乱转化为AI就绪的智能
底线:AI成功始于AI就绪的数据。
Hammerspace AI数据平台将碎片化的企业数据转换为受治理、统一和高性能的数据资源。它为组织提供了从想法到洞察的直接路径,无需昂贵的迁移,无混乱。
准备好应对您的数据挑战了吗?
与我们的专家联系,探索将现有基础设施转换为统一、AI就绪数据基础的实用方法。没有炒作,只有真实结果。
Q&A
Q1:为什么大多数AI试点项目无法进入生产环境?
A:根据IDC数据,虽然IT采购者在AI和硬件基础设施上投入巨资,但只有44%的AI试点项目能够进入生产环境。主要问题不在于计算能力或模型架构,而在于无法在碎片化、异构环境中操作化数据管道,以及数据科学家需要使用7到15个工具来处理数据。
Q2:Hammerspace AI数据平台有什么核心优势?
A:Hammerspace将跨站点和云的现有存储虚拟化到单一全球命名空间中,支持开放标准协议(NFS、SMB、S3、pNFS),集成Tier-0 NVMe架构和嵌入式向量数据库,使数百万文件可即时访问而无需移动数据,消除了昂贵迁移的需要。
Q3:企业如何通过统一数据平台加速AI价值实现?
A:统一数据平台帮助企业在几周而不是几个月内交付生产就绪的数据,减少基础设施浪费,简化运营到一个平台、一个命名空间、零孤岛,释放稀缺的数据工程师专注于创新而非集成,从而实现从想法到洞察的直接路径。
好文章,需要你的鼓励
谷歌发布新的AI学术搜索工具Scholar Labs,旨在回答详细研究问题。该工具使用AI识别查询中的主要话题和关系,目前仅对部分登录用户开放。与传统学术搜索不同,Scholar Labs不依赖引用次数或期刊影响因子等传统指标来筛选研究质量,而是通过分析文档全文、发表位置、作者信息及引用频次来排序。科学界对这种忽略传统质量评估方式的新方法持谨慎态度,认为研究者仍需保持对文献质量的最终判断权。
Meta公司FAIR实验室与UCLA合作开发了名为HoneyBee的超大规模视觉推理数据集,包含250万训练样本。研究揭示了构建高质量AI视觉推理训练数据的系统方法,发现数据质量比数量更重要,最佳数据源比最差数据源性能提升11.4%。关键创新包括"图片说明书"技术和文字-图片混合训练法,分别提升3.3%和7.5%准确率。HoneyBee训练的AI在多项测试中显著超越同规模模型,同时降低73%推理成本。
Meta发布第三代SAM(分割一切模型)系列AI模型,专注于视觉智能而非语言处理。该模型擅长物体检测,能够精确识别图像和视频中的特定对象。SAM 3在海量图像视频数据集上训练,可通过点击或文本描述准确标识目标物体。Meta将其应用于Instagram编辑工具和Facebook市场功能改进。在野生动物保护方面,SAM 3与保护组织合作分析超万台摄像头捕获的动物视频,成功识别百余种物种,为生态研究提供重要技术支持。
上海AI实验室团队提出ViCO训练策略,让多模态大语言模型能够根据图像语义复杂度智能分配计算资源。通过两阶段训练和视觉路由器,该方法在压缩50%视觉词汇的同时保持99.6%性能,推理速度提升近一倍,为AI效率优化提供了新思路。