Pure Storage谈AI数据挑战超越硬件层面

Pure Storage AI基础设施副总裁Par Botes强调,成功应对AI工作负载不仅需要足够的计算和存储资源,更关键的是确保AI训练数据的质量。企业需要捕获、组织、准备和对齐数据,因为数据往往不完整或不适合AI要解决的问题。他建议企业思考数据工程流程,利用数据湖仓对数据进行清理和准备,并建立持续的数据管理discipline。

成功应对人工智能(AI)工作负载不仅仅是投入计算和存储资源这么简单。当然,你需要足够的处理能力和存储来以正确的速率供应数据,但在任何此类操作取得成功之前,确保AI训练中使用数据的质量至关重要。

这是Pure Storage AI基础设施副总裁Par Botes传达的核心信息。我们在上周该公司在拉斯维加斯举办的Accelerate活动上与他进行了交流。

Botes强调,企业在应对AI时需要捕获、组织、准备和对齐数据。这是因为数据往往不完整或不适合AI试图回答的问题。

我们与Botes讨论了数据工程、数据管理、数据湖仓的使用,以及确保数据集符合AI要解决的需求。

Pure Storage如何看待AI中即将到来或新兴的存储挑战?

我认为,如果没有真正好的方式来组织数据、捕获数据,然后准备数据并将其与处理元素——GPU(图形处理单元)对齐,让它们能够足够快地访问数据,就很难创建使用AI解决问题的系统。

是什么让这些挑战变得特别困难?

我先从最明显的问题开始:如何让GPU消费数据?GPU功能极其强大,它们需要巨大的带宽。

很难以GPU消费数据的速度来供应数据。这个问题开始逐渐得到解决,特别是在高端领域。但对于普通的企业类型公司来说,这些是他们必须实施的新型系统和新型技能。

"随着数据改善,随着洞察变化,数据必须随之改变。因此,模型必须随之演进。这成为一个持续的过程。"

——Pure Storage Par Botes

在科学层面这不是一个难题,在运营层面这是一个难题,因为这些不是企业长期以来就存在的能力。

问题的下一部分是:如何准备数据?如何收集数据?如何知道我拥有正确的数据?如何评估数据?如何跟踪数据?如何对数据应用血缘关系来查看这个模型是用这组数据训练的?如何知道拥有完整的数据集?这是一个非常困难的问题。

这个问题会因客户和工作负载而异吗?因为我可以想象,凭借组织内的专业知识,人们可能知道自己拥有所需的所有数据。或者,在另一种情况下,可能不清楚是否拥有。

在不推理是否拥有所需的所有数据的情况下,很难知道答案。我给你举个例子。

我花了很多年构建自动驾驶汽车——感知网络、驾驶系统——但我们经常发现汽车在某些条件下表现不佳。

道路向左转且略微上坡,周围有其他汽车。然后我们意识到我们没有足够的训练数据。因此,拥有关于数据的原则性推理方式,关于完整性的推理,关于范围的推理,拥有所有相关数据,并对其进行数学分析,这种学科在高端训练公司之外并不常见。

了解了AI工作负载容易出现的问题和困难后,您认为客户如何开始缓解这些问题?

我推荐的一般方法是思考数据工程流程。因此,我们与做数据湖仓等工作的数据工程公司合作。

思考:如何将数据湖仓应用于传入数据?如何使用数据湖仓来清洁和准备数据?在某些情况下,甚至可能转换数据并为训练系统做好准备。我将从思考公司的数据工程学科开始,以及如何为AI做好准备。

如果深入了解,数据工程包括什么?

数据工程通常包括如何获得对可能存在于企业数据库、结构化系统或我们拥有的其他系统中的其他数据集的访问权限,以及如何获得对这些数据的访问权限?如何将其摄取到我数据湖仓的中间形式?然后如何转换并从可能跨不同存储库的这些数据集中选择数据,以创建代表我想要训练的数据的数据集。

这就是我们通常称为数据工程的学科。它正在成为一个非常独特的技能和学科。

在存储方面,客户如何用存储支持数据湖仓?以什么形式?

目前,常见的是云公司提供数据湖仓,对于本地部署,我们有系统集成商。

我们与其中几家合作。我们提供包括数据湖仓供应商在内的完整解决方案。我们与他们合作。

然后,当然还有使其快速运行和良好工作的底层存储。所以我认为关键组件是流行的数据湖仓数据库和其下的基础设施,然后将这些连接到训练端的其他存储系统。

看数据工程,这真的是一次性的挑战,还是组织在应对AI时持续进行的事情?

数据工程很难与存储分开。它们不完全相同,但密切相关。

一旦开始使用AI,你就想记录所有新数据。你想转换它并使其成为AI系统的一部分,无论你是将其用于RAG(检索增强生成)还是微调,或者如果你是高级用户,你构建自己的模型。

你将不断增加并改进它。随着数据改善,随着洞察变化,数据必须随之改变。因此,模型必须随之演进。

这成为一个持续的过程。

你必须考虑几个方面,比如血缘关系。这些数据的历史是什么?什么来源于哪里?在哪里被消费?当人们使用你的模型或当你内部使用模型时,你想思考什么问题正在被问?随之出现的问题是什么?

你想存储并将其用于质量保证,也用于未来的进一步训练。这成为我们所说的AI数据飞轮。数据不断被摄取、消费、计算、摄取、消费、计算。

这个循环不会停止。

您认为客户还应该关注什么其他方面?

你还应该思考,这些数据究竟是什么,数据代表什么?如果这些数据代表你观察到的或你做的事情,如果数据中有空白,AI会填补这些空白。当它错误地填补空白时,我们称之为幻觉。

诀窍是足够了解你的数据,知道哪里有空白。如果有空白,能否找到填补这些空白的方法?当你达到这种复杂程度时,你开始拥有一个真正令人印象深刻的系统可以使用。

即使你从使用云服务的基础开始,也要从记录你发送的内容和收到的内容开始。因为这构成了数据管理学科的基础。当我使用数据工程这个术语时,在数据工程和存储之间有一个称为数据管理的学科。

这是数据的组织,你要尽早开始。因为当你准备好做超出仅使用服务的事情时,你现在拥有了为数据工程师和存储准备的第一批数据。

这是一个巨大的洞察,我希望每个人都会考虑尽快这样做。

来源:Computer Weekly

0赞

好文章,需要你的鼓励

2025

06/25

14:43

分享

点赞

邮件订阅