成功应对人工智能(AI)工作负载不仅仅是投入计算和存储资源这么简单。当然,你需要足够的处理能力和存储来以正确的速率供应数据,但在任何此类操作取得成功之前,确保AI训练中使用数据的质量至关重要。
这是Pure Storage AI基础设施副总裁Par Botes传达的核心信息。我们在上周该公司在拉斯维加斯举办的Accelerate活动上与他进行了交流。
Botes强调,企业在应对AI时需要捕获、组织、准备和对齐数据。这是因为数据往往不完整或不适合AI试图回答的问题。
我们与Botes讨论了数据工程、数据管理、数据湖仓的使用,以及确保数据集符合AI要解决的需求。
Pure Storage如何看待AI中即将到来或新兴的存储挑战?
我认为,如果没有真正好的方式来组织数据、捕获数据,然后准备数据并将其与处理元素——GPU(图形处理单元)对齐,让它们能够足够快地访问数据,就很难创建使用AI解决问题的系统。
是什么让这些挑战变得特别困难?
我先从最明显的问题开始:如何让GPU消费数据?GPU功能极其强大,它们需要巨大的带宽。
很难以GPU消费数据的速度来供应数据。这个问题开始逐渐得到解决,特别是在高端领域。但对于普通的企业类型公司来说,这些是他们必须实施的新型系统和新型技能。
"随着数据改善,随着洞察变化,数据必须随之改变。因此,模型必须随之演进。这成为一个持续的过程。"
——Pure Storage Par Botes
在科学层面这不是一个难题,在运营层面这是一个难题,因为这些不是企业长期以来就存在的能力。
问题的下一部分是:如何准备数据?如何收集数据?如何知道我拥有正确的数据?如何评估数据?如何跟踪数据?如何对数据应用血缘关系来查看这个模型是用这组数据训练的?如何知道拥有完整的数据集?这是一个非常困难的问题。
这个问题会因客户和工作负载而异吗?因为我可以想象,凭借组织内的专业知识,人们可能知道自己拥有所需的所有数据。或者,在另一种情况下,可能不清楚是否拥有。
在不推理是否拥有所需的所有数据的情况下,很难知道答案。我给你举个例子。
我花了很多年构建自动驾驶汽车——感知网络、驾驶系统——但我们经常发现汽车在某些条件下表现不佳。
道路向左转且略微上坡,周围有其他汽车。然后我们意识到我们没有足够的训练数据。因此,拥有关于数据的原则性推理方式,关于完整性的推理,关于范围的推理,拥有所有相关数据,并对其进行数学分析,这种学科在高端训练公司之外并不常见。
了解了AI工作负载容易出现的问题和困难后,您认为客户如何开始缓解这些问题?
我推荐的一般方法是思考数据工程流程。因此,我们与做数据湖仓等工作的数据工程公司合作。
思考:如何将数据湖仓应用于传入数据?如何使用数据湖仓来清洁和准备数据?在某些情况下,甚至可能转换数据并为训练系统做好准备。我将从思考公司的数据工程学科开始,以及如何为AI做好准备。
如果深入了解,数据工程包括什么?
数据工程通常包括如何获得对可能存在于企业数据库、结构化系统或我们拥有的其他系统中的其他数据集的访问权限,以及如何获得对这些数据的访问权限?如何将其摄取到我数据湖仓的中间形式?然后如何转换并从可能跨不同存储库的这些数据集中选择数据,以创建代表我想要训练的数据的数据集。
这就是我们通常称为数据工程的学科。它正在成为一个非常独特的技能和学科。
在存储方面,客户如何用存储支持数据湖仓?以什么形式?
目前,常见的是云公司提供数据湖仓,对于本地部署,我们有系统集成商。
我们与其中几家合作。我们提供包括数据湖仓供应商在内的完整解决方案。我们与他们合作。
然后,当然还有使其快速运行和良好工作的底层存储。所以我认为关键组件是流行的数据湖仓数据库和其下的基础设施,然后将这些连接到训练端的其他存储系统。
看数据工程,这真的是一次性的挑战,还是组织在应对AI时持续进行的事情?
数据工程很难与存储分开。它们不完全相同,但密切相关。
一旦开始使用AI,你就想记录所有新数据。你想转换它并使其成为AI系统的一部分,无论你是将其用于RAG(检索增强生成)还是微调,或者如果你是高级用户,你构建自己的模型。
你将不断增加并改进它。随着数据改善,随着洞察变化,数据必须随之改变。因此,模型必须随之演进。
这成为一个持续的过程。
你必须考虑几个方面,比如血缘关系。这些数据的历史是什么?什么来源于哪里?在哪里被消费?当人们使用你的模型或当你内部使用模型时,你想思考什么问题正在被问?随之出现的问题是什么?
你想存储并将其用于质量保证,也用于未来的进一步训练。这成为我们所说的AI数据飞轮。数据不断被摄取、消费、计算、摄取、消费、计算。
这个循环不会停止。
您认为客户还应该关注什么其他方面?
你还应该思考,这些数据究竟是什么,数据代表什么?如果这些数据代表你观察到的或你做的事情,如果数据中有空白,AI会填补这些空白。当它错误地填补空白时,我们称之为幻觉。
诀窍是足够了解你的数据,知道哪里有空白。如果有空白,能否找到填补这些空白的方法?当你达到这种复杂程度时,你开始拥有一个真正令人印象深刻的系统可以使用。
即使你从使用云服务的基础开始,也要从记录你发送的内容和收到的内容开始。因为这构成了数据管理学科的基础。当我使用数据工程这个术语时,在数据工程和存储之间有一个称为数据管理的学科。
这是数据的组织,你要尽早开始。因为当你准备好做超出仅使用服务的事情时,你现在拥有了为数据工程师和存储准备的第一批数据。
这是一个巨大的洞察,我希望每个人都会考虑尽快这样做。
好文章,需要你的鼓励
Replit与RevenueCat达成合作,将订阅变现工具直接集成至Replit平台。用户只需通过自然语言提示(如"添加订阅"),即可完成应用内购和订阅配置,无需离开平台。RevenueCat管理超8万款应用的订阅业务,每月处理约10亿美元交易。此次合作旨在让"氛围编程"用户在构建应用的同时即可实现商业变现,月收入未达2500美元前免费使用,超出后收取1%费用。
LiVER是由北京大学、北京邮电大学等机构联合提出的视频生成框架,核心创新是将物理渲染技术与AI视频生成结合,通过Blender引擎计算漫反射、粗糙GGX和光泽GGX三种光照图像构成"场景代理",引导视频扩散模型生成光影物理准确的视频。框架包含渲染器智能体、轻量化编码器适配器和三阶段训练策略,支持对光照、场景布局和摄像机轨迹的独立精确控制。配套构建的LiVERSet数据集含约11000段标注视频,实验显示该方法在视频质量和控制精度上均优于现有方法。
所有人都说AI需要护栏,但真正在构建它的人寥寥无几。SkipLabs创始人Julien Verlaguet深耕这一问题已逾一年,他发现市面上多数"护栏"不过是提示词包装。为此,他打造了专为后端服务设计的AI编程智能体Skipper,基于健全的TypeScript类型系统与响应式运行时,实现增量式代码生成与测试,内部基准测试通过率超90%。他认为,编程语言的"人类可读性时代"正走向终结,面向智能体的精确工具链才是未来。
这项由蒙特利尔学习算法研究所(Mila)与麦吉尔大学联合发布的研究(arXiv:2604.07776,2026年4月)提出了AGENT-AS-ANNOTATORS框架,通过模仿人类数据标注的三种角色分工,系统化生成高质量网页智能体训练轨迹。以Gemini 3 Pro为教师模型,仅用2322条精选轨迹对90亿参数的Qwen3.5-9B模型进行监督微调,在WebArena基准上达到41.5%成功率,超越GPT-4o和Claude 3.5 Sonnet,并在从未见过的企业平台WorkArena L1上提升18.2个百分点,验证了"数据质量远比数量重要"这一核心结论。