成功应对人工智能(AI)工作负载不仅仅是投入计算和存储资源这么简单。当然,你需要足够的处理能力和存储来以正确的速率供应数据,但在任何此类操作取得成功之前,确保AI训练中使用数据的质量至关重要。
这是Pure Storage AI基础设施副总裁Par Botes传达的核心信息。我们在上周该公司在拉斯维加斯举办的Accelerate活动上与他进行了交流。
Botes强调,企业在应对AI时需要捕获、组织、准备和对齐数据。这是因为数据往往不完整或不适合AI试图回答的问题。
我们与Botes讨论了数据工程、数据管理、数据湖仓的使用,以及确保数据集符合AI要解决的需求。
Pure Storage如何看待AI中即将到来或新兴的存储挑战?
我认为,如果没有真正好的方式来组织数据、捕获数据,然后准备数据并将其与处理元素——GPU(图形处理单元)对齐,让它们能够足够快地访问数据,就很难创建使用AI解决问题的系统。
是什么让这些挑战变得特别困难?
我先从最明显的问题开始:如何让GPU消费数据?GPU功能极其强大,它们需要巨大的带宽。
很难以GPU消费数据的速度来供应数据。这个问题开始逐渐得到解决,特别是在高端领域。但对于普通的企业类型公司来说,这些是他们必须实施的新型系统和新型技能。
"随着数据改善,随着洞察变化,数据必须随之改变。因此,模型必须随之演进。这成为一个持续的过程。"
——Pure Storage Par Botes
在科学层面这不是一个难题,在运营层面这是一个难题,因为这些不是企业长期以来就存在的能力。
问题的下一部分是:如何准备数据?如何收集数据?如何知道我拥有正确的数据?如何评估数据?如何跟踪数据?如何对数据应用血缘关系来查看这个模型是用这组数据训练的?如何知道拥有完整的数据集?这是一个非常困难的问题。
这个问题会因客户和工作负载而异吗?因为我可以想象,凭借组织内的专业知识,人们可能知道自己拥有所需的所有数据。或者,在另一种情况下,可能不清楚是否拥有。
在不推理是否拥有所需的所有数据的情况下,很难知道答案。我给你举个例子。
我花了很多年构建自动驾驶汽车——感知网络、驾驶系统——但我们经常发现汽车在某些条件下表现不佳。
道路向左转且略微上坡,周围有其他汽车。然后我们意识到我们没有足够的训练数据。因此,拥有关于数据的原则性推理方式,关于完整性的推理,关于范围的推理,拥有所有相关数据,并对其进行数学分析,这种学科在高端训练公司之外并不常见。
了解了AI工作负载容易出现的问题和困难后,您认为客户如何开始缓解这些问题?
我推荐的一般方法是思考数据工程流程。因此,我们与做数据湖仓等工作的数据工程公司合作。
思考:如何将数据湖仓应用于传入数据?如何使用数据湖仓来清洁和准备数据?在某些情况下,甚至可能转换数据并为训练系统做好准备。我将从思考公司的数据工程学科开始,以及如何为AI做好准备。
如果深入了解,数据工程包括什么?
数据工程通常包括如何获得对可能存在于企业数据库、结构化系统或我们拥有的其他系统中的其他数据集的访问权限,以及如何获得对这些数据的访问权限?如何将其摄取到我数据湖仓的中间形式?然后如何转换并从可能跨不同存储库的这些数据集中选择数据,以创建代表我想要训练的数据的数据集。
这就是我们通常称为数据工程的学科。它正在成为一个非常独特的技能和学科。
在存储方面,客户如何用存储支持数据湖仓?以什么形式?
目前,常见的是云公司提供数据湖仓,对于本地部署,我们有系统集成商。
我们与其中几家合作。我们提供包括数据湖仓供应商在内的完整解决方案。我们与他们合作。
然后,当然还有使其快速运行和良好工作的底层存储。所以我认为关键组件是流行的数据湖仓数据库和其下的基础设施,然后将这些连接到训练端的其他存储系统。
看数据工程,这真的是一次性的挑战,还是组织在应对AI时持续进行的事情?
数据工程很难与存储分开。它们不完全相同,但密切相关。
一旦开始使用AI,你就想记录所有新数据。你想转换它并使其成为AI系统的一部分,无论你是将其用于RAG(检索增强生成)还是微调,或者如果你是高级用户,你构建自己的模型。
你将不断增加并改进它。随着数据改善,随着洞察变化,数据必须随之改变。因此,模型必须随之演进。
这成为一个持续的过程。
你必须考虑几个方面,比如血缘关系。这些数据的历史是什么?什么来源于哪里?在哪里被消费?当人们使用你的模型或当你内部使用模型时,你想思考什么问题正在被问?随之出现的问题是什么?
你想存储并将其用于质量保证,也用于未来的进一步训练。这成为我们所说的AI数据飞轮。数据不断被摄取、消费、计算、摄取、消费、计算。
这个循环不会停止。
您认为客户还应该关注什么其他方面?
你还应该思考,这些数据究竟是什么,数据代表什么?如果这些数据代表你观察到的或你做的事情,如果数据中有空白,AI会填补这些空白。当它错误地填补空白时,我们称之为幻觉。
诀窍是足够了解你的数据,知道哪里有空白。如果有空白,能否找到填补这些空白的方法?当你达到这种复杂程度时,你开始拥有一个真正令人印象深刻的系统可以使用。
即使你从使用云服务的基础开始,也要从记录你发送的内容和收到的内容开始。因为这构成了数据管理学科的基础。当我使用数据工程这个术语时,在数据工程和存储之间有一个称为数据管理的学科。
这是数据的组织,你要尽早开始。因为当你准备好做超出仅使用服务的事情时,你现在拥有了为数据工程师和存储准备的第一批数据。
这是一个巨大的洞察,我希望每个人都会考虑尽快这样做。
好文章,需要你的鼓励
研究人员基于Meta前首席AI科学家Yann LeCun提出的联合嵌入预测架构,开发了名为JETS的自监督时间序列基础模型。该模型能够处理不规则的可穿戴设备数据,通过学习预测缺失数据的含义而非数据本身,成功检测多种疾病。在高血压检测中AUROC达86.8%,心房扑动检测达70.5%。研究显示即使只有15%的参与者有标注医疗记录,该模型仍能有效利用85%的未标注数据进行训练,为利用不完整健康数据提供了新思路。
西湖大学等机构联合发布TwinFlow技术,通过创新的"双轨道"设计实现AI图像生成的革命性突破。该技术让原本需要40-100步的图像生成过程缩短到仅需1步,速度提升100倍且质量几乎无损。TwinFlow采用自我对抗机制,无需额外辅助模型,成功应用于200亿参数超大模型,在GenEval等标准测试中表现卓越,为实时AI图像生成应用开辟了广阔前景。
AI云基础设施提供商Coreweave今年经历了起伏。3月份IPO未达预期,10月收购Core Scientific计划因股东反对而搁浅。CEO Michael Intrator为公司表现辩护,称正在创建云计算新商业模式。面对股价波动和高负债质疑,他表示这是颠覆性创新的必然过程。公司从加密货币挖矿转型为AI基础设施提供商,与微软、OpenAI等巨头合作。对于AI行业循环投资批评,Intrator认为这是应对供需剧变的合作方式。
中山大学等机构联合开发的RealGen框架成功解决了AI生成图像的"塑料感"问题。该技术通过"探测器奖励"机制,让AI在躲避图像检测器识别的过程中学会制作更逼真照片。实验显示,RealGen在逼真度评测中大幅领先现有模型,在与真实照片对比中胜率接近50%,为AI图像生成技术带来重要突破。