Pure Storage推出了Data Stream,这是一个以GPU为核心、AI驱动的集成硬件和软件堆栈,专门用于AI数据管道。
Data Stream概述
Data Stream是运行在FlashBlade//S和英伟达Blackwell GPU硬件上的软件套件。它旨在自动化和加速企业AI管道中的数据摄取、转换和优化过程。Data Stream可视为Pure Storage数据平台的核心组件,专门针对企业推理用例,使用英伟达AI数据平台参考设计,并作为单一SKU提供。Data Stream充当智能编排层,通过自动化GPU加速处理和GPU对齐交付,确保数据为AI应用做好准备。
据Pure Storage官方博客介绍,Data Stream直接解决了企业AI项目中的"数据准备就绪危机",加速数据的可用性。
核心功能特性
自动化实时数据摄取和结构化:Data Stream能够从多样化的数据源摄取原始数据,包括文本文档、PDF、图像和结构化表格。它执行智能分块和转换,将内容划分为语义连贯的片段(如句子或段落),以保持上下文完整性和细粒度访问控制,同时最小化信息损失。该过程支持多协议访问(NFS、S3、SMB),能够处理数十亿个文件或对象,实现与内置向量数据库的无缝集成,在Pure Storage FlashBlade//S上提供可扩展存储。
英伟达NeMo集成:Data Stream编排从数据准备到模型推理的端到端工作流。NeMo Retriever支持GPU加速的向量嵌入生成,将原始数据块使用英伟达嵌入模型转换为高维语义向量。这些嵌入通过近似最近邻(ANN)算法、HNSW、IVF等方式促进高级相似性搜索,用于RAG管道中的检索。该集成支持英伟达NIM部署优化推理,通过标准化API在本地或云环境中进行扩展。
GPU优化管道加速:Data Stream使用英伟达RTX PRO 6000 Blackwell Server Edition GPU和英伟达软件库(如Spark Rapids和cuVS),以及ConnectX-7网卡实现低延迟网络存储访问。编排在存储层进行,元数据丰富和相关性重排等转换并行执行,大幅减少推理的端到端延迟。
最小化数据移动:通过在FlashBlade DirectFlash模块上本地处理增强功能(利用非易失性RAM进行全局元数据管理),Data Stream减少了数据移动开销。输出格式化为JSON、Apache Parquet或Arrow等结构,释放向量存储中的额外容量。这种方法支持PB级RAG数据集,能够独立扩展容量和性能以适应多个GPU集群而无需停机。
技术优势与应用价值
Pure Storage表示,智能查询增强等功能(用户输入被向量化并与数十亿个嵌入进行匹配)以及防护栏过滤,通过利用检索到的上下文来减轻大语言模型的幻觉或不当输出,从而提高大语言模型的准确性、相关性和安全性。
该公司声称Data Stream代表了"企业AI就绪数据消费的涡轮增压器,大幅减少了AI应用数据可用性的延迟和复杂性"。这使得"能够即时访问转换后的向量化数据,这些数据本质上为GPU中心架构进行了优化,意味着更多的推理和消费,而无需繁琐或复杂的操作"。
Data Stream目前可通过官网进行预览体验。
Q&A
Q1:Pure Storage Data Stream是什么产品?
A:Data Stream是Pure Storage推出的一个以GPU为核心、AI驱动的集成硬件和软件堆栈,专门用于AI数据管道。它运行在FlashBlade//S和英伟达Blackwell GPU硬件上,旨在自动化和加速企业AI管道中的数据摄取、转换和优化过程。
Q2:Data Stream如何解决企业AI数据准备问题?
A:Data Stream通过自动化实时数据摄取和结构化功能,能够从多样化数据源摄取原始数据并进行智能分块转换,支持多协议访问和数十亿文件处理。同时利用GPU优化管道加速和最小化数据移动技术,大幅减少AI应用数据可用性的延迟和复杂性。
Q3:Data Stream有哪些核心技术特性?
A:主要包括自动化实时数据摄取和结构化、英伟达NeMo集成支持端到端工作流、GPU优化管道加速使用Blackwell GPU和相关软件库、以及通过本地处理和向量化输出实现数据移动最小化,支持PB级数据集和多GPU集群扩展。
好文章,需要你的鼓励
美国多州和部分国家要求特定应用进行年龄验证,澳大利亚已禁止16岁以下用户使用社交媒体。新提案《应用商店问责法案》建议由苹果和谷歌负责统一验证用户年龄,而非各开发者单独验证。这将提升用户体验,用户只需向苹果或谷歌验证一次身份。凭借苹果在隐私保护方面的优势,该方案可扩展至Safari浏览器,为需要年龄验证的网站提供确认信息,而无需透露用户个人数据。
Meta AI首次发布多模态奖励评估基准MMRB2,专门评价AI同时处理文字和图像的能力。该基准包含四大任务类型共4000个专家标注样本,测试23个先进模型。结果显示最佳模型Gemini 3 Pro达75-80%准确率,仍低于人类90%水平。研究揭示AI评价存在视觉偏见等问题,为多模态AI发展提供重要参考标准。
AI编程助手Cursor背后的公司Anysphere宣布收购AI代码审查工具初创公司Graphite。据报道收购价远超Graphite今年早些时候B轮融资时2.9亿美元的估值。此次收购具有战略意义,将AI代码生成与AI代码审查工具相结合,可大幅提升从编写到交付的整体效率。Anysphere估值已达290亿美元,近期频繁收购,上月收购技术招聘公司,今年7月还收购AI客户关系管理初创公司Koala的团队。
快手推出的Kling-Omni是首个真正统一的AI视频制作系统,能够理解文字、图像、视频等多种输入方式,不仅可以生成视频,还能进行复杂编辑和推理。该系统通过三个核心模块的协作,实现了从创意理解到最终输出的全流程自动化,让普通用户也能制作专业水准的视频内容,代表了AI视频技术的重要突破。