成功应对人工智能(AI)工作负载不仅仅是投入计算和存储资源这么简单。当然,你需要足够的处理能力和存储来以正确的速率供应数据,但在任何此类操作取得成功之前,确保AI训练中使用数据的质量至关重要。
这是Pure Storage AI基础设施副总裁Par Botes传达的核心信息。我们在上周该公司在拉斯维加斯举办的Accelerate活动上与他进行了交流。
Botes强调,企业在应对AI时需要捕获、组织、准备和对齐数据。这是因为数据往往不完整或不适合AI试图回答的问题。
我们与Botes讨论了数据工程、数据管理、数据湖仓的使用,以及确保数据集符合AI要解决的需求。
Pure Storage如何看待AI中即将到来或新兴的存储挑战?
我认为,如果没有真正好的方式来组织数据、捕获数据,然后准备数据并将其与处理元素——GPU(图形处理单元)对齐,让它们能够足够快地访问数据,就很难创建使用AI解决问题的系统。
是什么让这些挑战变得特别困难?
我先从最明显的问题开始:如何让GPU消费数据?GPU功能极其强大,它们需要巨大的带宽。
很难以GPU消费数据的速度来供应数据。这个问题开始逐渐得到解决,特别是在高端领域。但对于普通的企业类型公司来说,这些是他们必须实施的新型系统和新型技能。
"随着数据改善,随着洞察变化,数据必须随之改变。因此,模型必须随之演进。这成为一个持续的过程。"
——Pure Storage Par Botes
在科学层面这不是一个难题,在运营层面这是一个难题,因为这些不是企业长期以来就存在的能力。
问题的下一部分是:如何准备数据?如何收集数据?如何知道我拥有正确的数据?如何评估数据?如何跟踪数据?如何对数据应用血缘关系来查看这个模型是用这组数据训练的?如何知道拥有完整的数据集?这是一个非常困难的问题。
这个问题会因客户和工作负载而异吗?因为我可以想象,凭借组织内的专业知识,人们可能知道自己拥有所需的所有数据。或者,在另一种情况下,可能不清楚是否拥有。
在不推理是否拥有所需的所有数据的情况下,很难知道答案。我给你举个例子。
我花了很多年构建自动驾驶汽车——感知网络、驾驶系统——但我们经常发现汽车在某些条件下表现不佳。
道路向左转且略微上坡,周围有其他汽车。然后我们意识到我们没有足够的训练数据。因此,拥有关于数据的原则性推理方式,关于完整性的推理,关于范围的推理,拥有所有相关数据,并对其进行数学分析,这种学科在高端训练公司之外并不常见。
了解了AI工作负载容易出现的问题和困难后,您认为客户如何开始缓解这些问题?
我推荐的一般方法是思考数据工程流程。因此,我们与做数据湖仓等工作的数据工程公司合作。
思考:如何将数据湖仓应用于传入数据?如何使用数据湖仓来清洁和准备数据?在某些情况下,甚至可能转换数据并为训练系统做好准备。我将从思考公司的数据工程学科开始,以及如何为AI做好准备。
如果深入了解,数据工程包括什么?
数据工程通常包括如何获得对可能存在于企业数据库、结构化系统或我们拥有的其他系统中的其他数据集的访问权限,以及如何获得对这些数据的访问权限?如何将其摄取到我数据湖仓的中间形式?然后如何转换并从可能跨不同存储库的这些数据集中选择数据,以创建代表我想要训练的数据的数据集。
这就是我们通常称为数据工程的学科。它正在成为一个非常独特的技能和学科。
在存储方面,客户如何用存储支持数据湖仓?以什么形式?
目前,常见的是云公司提供数据湖仓,对于本地部署,我们有系统集成商。
我们与其中几家合作。我们提供包括数据湖仓供应商在内的完整解决方案。我们与他们合作。
然后,当然还有使其快速运行和良好工作的底层存储。所以我认为关键组件是流行的数据湖仓数据库和其下的基础设施,然后将这些连接到训练端的其他存储系统。
看数据工程,这真的是一次性的挑战,还是组织在应对AI时持续进行的事情?
数据工程很难与存储分开。它们不完全相同,但密切相关。
一旦开始使用AI,你就想记录所有新数据。你想转换它并使其成为AI系统的一部分,无论你是将其用于RAG(检索增强生成)还是微调,或者如果你是高级用户,你构建自己的模型。
你将不断增加并改进它。随着数据改善,随着洞察变化,数据必须随之改变。因此,模型必须随之演进。
这成为一个持续的过程。
你必须考虑几个方面,比如血缘关系。这些数据的历史是什么?什么来源于哪里?在哪里被消费?当人们使用你的模型或当你内部使用模型时,你想思考什么问题正在被问?随之出现的问题是什么?
你想存储并将其用于质量保证,也用于未来的进一步训练。这成为我们所说的AI数据飞轮。数据不断被摄取、消费、计算、摄取、消费、计算。
这个循环不会停止。
您认为客户还应该关注什么其他方面?
你还应该思考,这些数据究竟是什么,数据代表什么?如果这些数据代表你观察到的或你做的事情,如果数据中有空白,AI会填补这些空白。当它错误地填补空白时,我们称之为幻觉。
诀窍是足够了解你的数据,知道哪里有空白。如果有空白,能否找到填补这些空白的方法?当你达到这种复杂程度时,你开始拥有一个真正令人印象深刻的系统可以使用。
即使你从使用云服务的基础开始,也要从记录你发送的内容和收到的内容开始。因为这构成了数据管理学科的基础。当我使用数据工程这个术语时,在数据工程和存储之间有一个称为数据管理的学科。
这是数据的组织,你要尽早开始。因为当你准备好做超出仅使用服务的事情时,你现在拥有了为数据工程师和存储准备的第一批数据。
这是一个巨大的洞察,我希望每个人都会考虑尽快这样做。
好文章,需要你的鼓励
本文评测了六款控制台平铺终端复用器工具。GNU Screen作为老牌工具功能强大但操作复杂,Tmux更现代化但学习曲线陡峭,Byobu为前两者提供友好界面,Zellij用Rust编写界面简洁易用,DVTM追求极简主义,Twin提供类似TurboVision的文本界面环境。每款工具都有各自特点和适用场景。
韩国汉阳大学联合高通AI研究院开发出InfiniPot-V框架,解决了移动设备处理长视频时的内存限制问题。该技术通过时间冗余消除和语义重要性保留两种策略,将存储需求压缩至原来的12%,同时保持高准确性,让手机和AR眼镜也能实时理解超长视频内容。
网络安全公司Snyk宣布收购瑞士人工智能安全研究公司Invariant Labs,收购金额未公开。Invariant Labs从苏黎世联邦理工学院分拆成立,专注于帮助开发者构建安全可靠的AI代理工具和框架。该公司提供Explorer运行时观察仪表板、Gateway轻量级代理、Guardrails策略引擎等产品,并在工具中毒和模型上下文协议漏洞等新兴AI威胁防护方面处于领先地位。此次收购将推进Snyk保护下一代AI原生应用的使命。
纽约大学研究团队通过INT-ACT测试套件全面评估了当前先进的视觉-语言-动作机器人模型,发现了一个普遍存在的"意图-行动差距"问题:机器人能够正确理解任务和识别物体,但在实际动作执行时频频失败。研究还揭示了端到端训练会损害原有语言理解能力,以及多模态挑战下的推理脆弱性,为未来机器人技术发展提供了重要指导。