Pure Storage推出了Data Stream,这是一个以GPU为核心、AI驱动的集成硬件和软件堆栈,专门用于AI数据管道。
Data Stream概述
Data Stream是运行在FlashBlade//S和英伟达Blackwell GPU硬件上的软件套件。它旨在自动化和加速企业AI管道中的数据摄取、转换和优化过程。Data Stream可视为Pure Storage数据平台的核心组件,专门针对企业推理用例,使用英伟达AI数据平台参考设计,并作为单一SKU提供。Data Stream充当智能编排层,通过自动化GPU加速处理和GPU对齐交付,确保数据为AI应用做好准备。
据Pure Storage官方博客介绍,Data Stream直接解决了企业AI项目中的"数据准备就绪危机",加速数据的可用性。
核心功能特性
自动化实时数据摄取和结构化:Data Stream能够从多样化的数据源摄取原始数据,包括文本文档、PDF、图像和结构化表格。它执行智能分块和转换,将内容划分为语义连贯的片段(如句子或段落),以保持上下文完整性和细粒度访问控制,同时最小化信息损失。该过程支持多协议访问(NFS、S3、SMB),能够处理数十亿个文件或对象,实现与内置向量数据库的无缝集成,在Pure Storage FlashBlade//S上提供可扩展存储。
英伟达NeMo集成:Data Stream编排从数据准备到模型推理的端到端工作流。NeMo Retriever支持GPU加速的向量嵌入生成,将原始数据块使用英伟达嵌入模型转换为高维语义向量。这些嵌入通过近似最近邻(ANN)算法、HNSW、IVF等方式促进高级相似性搜索,用于RAG管道中的检索。该集成支持英伟达NIM部署优化推理,通过标准化API在本地或云环境中进行扩展。
GPU优化管道加速:Data Stream使用英伟达RTX PRO 6000 Blackwell Server Edition GPU和英伟达软件库(如Spark Rapids和cuVS),以及ConnectX-7网卡实现低延迟网络存储访问。编排在存储层进行,元数据丰富和相关性重排等转换并行执行,大幅减少推理的端到端延迟。
最小化数据移动:通过在FlashBlade DirectFlash模块上本地处理增强功能(利用非易失性RAM进行全局元数据管理),Data Stream减少了数据移动开销。输出格式化为JSON、Apache Parquet或Arrow等结构,释放向量存储中的额外容量。这种方法支持PB级RAG数据集,能够独立扩展容量和性能以适应多个GPU集群而无需停机。
技术优势与应用价值
Pure Storage表示,智能查询增强等功能(用户输入被向量化并与数十亿个嵌入进行匹配)以及防护栏过滤,通过利用检索到的上下文来减轻大语言模型的幻觉或不当输出,从而提高大语言模型的准确性、相关性和安全性。
该公司声称Data Stream代表了"企业AI就绪数据消费的涡轮增压器,大幅减少了AI应用数据可用性的延迟和复杂性"。这使得"能够即时访问转换后的向量化数据,这些数据本质上为GPU中心架构进行了优化,意味着更多的推理和消费,而无需繁琐或复杂的操作"。
Data Stream目前可通过官网进行预览体验。
Q&A
Q1:Pure Storage Data Stream是什么产品?
A:Data Stream是Pure Storage推出的一个以GPU为核心、AI驱动的集成硬件和软件堆栈,专门用于AI数据管道。它运行在FlashBlade//S和英伟达Blackwell GPU硬件上,旨在自动化和加速企业AI管道中的数据摄取、转换和优化过程。
Q2:Data Stream如何解决企业AI数据准备问题?
A:Data Stream通过自动化实时数据摄取和结构化功能,能够从多样化数据源摄取原始数据并进行智能分块转换,支持多协议访问和数十亿文件处理。同时利用GPU优化管道加速和最小化数据移动技术,大幅减少AI应用数据可用性的延迟和复杂性。
Q3:Data Stream有哪些核心技术特性?
A:主要包括自动化实时数据摄取和结构化、英伟达NeMo集成支持端到端工作流、GPU优化管道加速使用Blackwell GPU和相关软件库、以及通过本地处理和向量化输出实现数据移动最小化,支持PB级数据集和多GPU集群扩展。
好文章,需要你的鼓励
埃森哲投资AI零售平台Profitmind,该平台通过智能代理自动化定价决策、库存管理和规划。研究显示AI驱动了2025年假日购物季20%的消费,约2620亿美元。部署AI代理的企业假日销售同比增长6.2%,而未部署的仅增长3.9%。Profitmind实时监控竞争对手价格和营销策略,并可创建生成式引擎优化产品文案。
上海AI实验室联合团队开发RoboVIP系统,通过视觉身份提示技术解决机器人训练数据稀缺问题。该系统能生成多视角、时间连贯的机器人操作视频,利用夹爪状态信号精确识别交互物体,构建百万级视觉身份数据库。实验显示,RoboVIP显著提升机器人在复杂环境中的操作成功率,为机器人智能化发展提供重要技术突破。
日立公司在CES 2026技术展上宣布了重新定义人工智能未来的"里程碑式"战略,将AI直接应用于关键物理基础设施。该公司与英伟达、谷歌云建立重要合作伙伴关系,并扩展其数字资产管理平台HMAX,旨在将AI引入社会基础设施,变革能源、交通和工业基础设施领域。日立强调其独特地位,能够将AI集成到直接影响社会的系统中,解决可持续发展、安全和效率方面的紧迫挑战。
英伟达研究团队提出GDPO方法,解决AI多目标训练中的"奖励信号坍缩"问题。该方法通过分别评估各技能再综合考量,避免了传统GRPO方法简单相加导致的信息丢失。在工具调用、数学推理、代码编程三大场景测试中,GDPO均显著优于传统方法,准确率提升最高达6.3%,且训练过程更稳定。该技术已开源并支持主流AI框架。