Pure Storage谈AI数据挑战超越硬件层面

Pure Storage AI基础设施副总裁Par Botes强调，成功应对AI工作负载不仅需要足够的计算和存储资源，更关键的是确保AI训练数据的质量。企业需要捕获、组织、准备和对齐数据，因为数据往往不完整或不适合AI要解决的问题。他建议企业思考数据工程流程，利用数据湖仓对数据进行清理和准备，并建立持续的数据管理discipline。

成功应对人工智能（AI）工作负载不仅仅是投入计算和存储资源这么简单。当然，你需要足够的处理能力和存储来以正确的速率供应数据，但在任何此类操作取得成功之前，确保AI训练中使用数据的质量至关重要。

这是Pure Storage AI基础设施副总裁Par Botes传达的核心信息。我们在上周该公司在拉斯维加斯举办的Accelerate活动上与他进行了交流。

Botes强调，企业在应对AI时需要捕获、组织、准备和对齐数据。这是因为数据往往不完整或不适合AI试图回答的问题。

我们与Botes讨论了数据工程、数据管理、数据湖仓的使用，以及确保数据集符合AI要解决的需求。

Pure Storage如何看待AI中即将到来或新兴的存储挑战？

我认为，如果没有真正好的方式来组织数据、捕获数据，然后准备数据并将其与处理元素——GPU（图形处理单元）对齐，让它们能够足够快地访问数据，就很难创建使用AI解决问题的系统。

是什么让这些挑战变得特别困难？

我先从最明显的问题开始：如何让GPU消费数据？GPU功能极其强大，它们需要巨大的带宽。

很难以GPU消费数据的速度来供应数据。这个问题开始逐渐得到解决，特别是在高端领域。但对于普通的企业类型公司来说，这些是他们必须实施的新型系统和新型技能。

"随着数据改善，随着洞察变化，数据必须随之改变。因此，模型必须随之演进。这成为一个持续的过程。"

——Pure Storage Par Botes

在科学层面这不是一个难题，在运营层面这是一个难题，因为这些不是企业长期以来就存在的能力。

问题的下一部分是：如何准备数据？如何收集数据？如何知道我拥有正确的数据？如何评估数据？如何跟踪数据？如何对数据应用血缘关系来查看这个模型是用这组数据训练的？如何知道拥有完整的数据集？这是一个非常困难的问题。

这个问题会因客户和工作负载而异吗？因为我可以想象，凭借组织内的专业知识，人们可能知道自己拥有所需的所有数据。或者，在另一种情况下，可能不清楚是否拥有。

在不推理是否拥有所需的所有数据的情况下，很难知道答案。我给你举个例子。

我花了很多年构建自动驾驶汽车——感知网络、驾驶系统——但我们经常发现汽车在某些条件下表现不佳。

道路向左转且略微上坡，周围有其他汽车。然后我们意识到我们没有足够的训练数据。因此，拥有关于数据的原则性推理方式，关于完整性的推理，关于范围的推理，拥有所有相关数据，并对其进行数学分析，这种学科在高端训练公司之外并不常见。

了解了AI工作负载容易出现的问题和困难后，您认为客户如何开始缓解这些问题？

我推荐的一般方法是思考数据工程流程。因此，我们与做数据湖仓等工作的数据工程公司合作。

思考：如何将数据湖仓应用于传入数据？如何使用数据湖仓来清洁和准备数据？在某些情况下，甚至可能转换数据并为训练系统做好准备。我将从思考公司的数据工程学科开始，以及如何为AI做好准备。

如果深入了解，数据工程包括什么？

数据工程通常包括如何获得对可能存在于企业数据库、结构化系统或我们拥有的其他系统中的其他数据集的访问权限，以及如何获得对这些数据的访问权限？如何将其摄取到我数据湖仓的中间形式？然后如何转换并从可能跨不同存储库的这些数据集中选择数据，以创建代表我想要训练的数据的数据集。

这就是我们通常称为数据工程的学科。它正在成为一个非常独特的技能和学科。

在存储方面，客户如何用存储支持数据湖仓？以什么形式？

目前，常见的是云公司提供数据湖仓，对于本地部署，我们有系统集成商。

我们与其中几家合作。我们提供包括数据湖仓供应商在内的完整解决方案。我们与他们合作。

然后，当然还有使其快速运行和良好工作的底层存储。所以我认为关键组件是流行的数据湖仓数据库和其下的基础设施，然后将这些连接到训练端的其他存储系统。

看数据工程，这真的是一次性的挑战，还是组织在应对AI时持续进行的事情？

数据工程很难与存储分开。它们不完全相同，但密切相关。

一旦开始使用AI，你就想记录所有新数据。你想转换它并使其成为AI系统的一部分，无论你是将其用于RAG（检索增强生成）还是微调，或者如果你是高级用户，你构建自己的模型。

你将不断增加并改进它。随着数据改善，随着洞察变化，数据必须随之改变。因此，模型必须随之演进。

这成为一个持续的过程。

你必须考虑几个方面，比如血缘关系。这些数据的历史是什么？什么来源于哪里？在哪里被消费？当人们使用你的模型或当你内部使用模型时，你想思考什么问题正在被问？随之出现的问题是什么？

你想存储并将其用于质量保证，也用于未来的进一步训练。这成为我们所说的AI数据飞轮。数据不断被摄取、消费、计算、摄取、消费、计算。

这个循环不会停止。

您认为客户还应该关注什么其他方面？

你还应该思考，这些数据究竟是什么，数据代表什么？如果这些数据代表你观察到的或你做的事情，如果数据中有空白，AI会填补这些空白。当它错误地填补空白时，我们称之为幻觉。

诀窍是足够了解你的数据，知道哪里有空白。如果有空白，能否找到填补这些空白的方法？当你达到这种复杂程度时，你开始拥有一个真正令人印象深刻的系统可以使用。

即使你从使用云服务的基础开始，也要从记录你发送的内容和收到的内容开始。因为这构成了数据管理学科的基础。当我使用数据工程这个术语时，在数据工程和存储之间有一个称为数据管理的学科。

这是数据的组织，你要尽早开始。因为当你准备好做超出仅使用服务的事情时，你现在拥有了为数据工程师和存储准备的第一批数据。

这是一个巨大的洞察，我希望每个人都会考虑尽快这样做。

来源：Computer Weekly

0赞

好文章，需要你的鼓励

Pure Storage谈AI数据挑战超越硬件层面

来源：Computer Weekly

2025

06/25

14:43

分享

点赞

智算前沿 焕芯未来—MINISFORUM 与 AMD 联合举办AI 双旗舰产品体验会

锐龙9高端游戏本突破百万销量 京东“超级供应链”成AMD 增长强引擎

西门子发布数据中心解决方案5.0，创新型直流配电产品首次亮相中国市场

研究人员利用300万天Apple Watch数据训练疾病检测AI

CoreWeave CEO 为 AI 循环交易辩护称其为"协作共赢"

IT领导者不可忽视的生成式AI价值实现五大趋势

AI安全监管亟待加强，头部科技公司评分不及格

TPU挑战GPU霸主地位，谷歌专用芯片崛起

2026年AI预测：自动化发展与工作未来的十大趋势

亚马逊计划2030年前在印度投资350亿美元聚焦AI与物流

Adobe将Photoshop、Acrobat和Adobe Express集成至ChatGPT

Google DeepMind与Apptronik展示家用人形机器人执行真实世界任务

AI正在终结传统营销模式：下一个时代将会如何？

HPE全面押注智能体AI技术变革企业运营

谷歌发布可在机器人本地运行的新Gemini模型

情感智能成为AI发展新赛道，新数据揭示语言模型发展趋势

Pythagora推出专业AI代理团队革新情感编程体验

AI初创公司Context携手高通推出智能代理自动驾驶系统

每位首席信息安全官必须回答的十个网络安全关键问题

前沿模型推动人工智能边界突破

Salesforce发布Agentforce 3，支持AI智能体可观测性和MCP协议

MIT新框架让AI模型具备自我学习和持续适应能力

如果您非常迫切的想了解IT领域最新产品与技术信息，那么订阅至顶网技术邮件将是您的最佳途径之一

电子竞技瞬息万变，Team Liquid的“数据+AI”制胜秘籍

中国移动呼和浩特数据中心：只有高效存力先行，AI才能跑出全力

从“支撑工具”到“智能中枢”，AI原生ERP进化

阿里要用AI将云计算重做一遍

关注官方公众号

关注官方微博

关注官方喜马拉雅

友情链接

业界热点:

智算前沿焕芯未来—MINISFORUM 与 AMD 联合举办AI 双旗舰产品体验会

锐龙9高端游戏本突破百万销量京东“超级供应链”成AMD 增长强引擎