忘记训练,在AI推理阶段寻找杀手级应用

大多数企业不会训练自己的AI模型,而是专注于将AI应用到生产环境和推理阶段。核心任务包括数据微调和管理。关键技术包括检索增强生成、向量数据库、AI提示重用和副驾驶功能,让用户能用自然语言查询企业信息。由于GPU硬件更新速度快且成本高昂,企业更倾向于租用云端GPU容量。真正的AI价值在于推理阶段快速整理数据并优化现有模型。

大多数组织永远不会训练自己的AI模型。相反,大多数客户在AI领域的关键挑战在于将其应用到生产应用程序和推理中,微调和数据管理是核心任务。

关键在于使用检索增强生成(RAG)和向量数据库、重复使用AI提示词的能力,以及允许用户用自然语言查询企业信息的协作助手功能。

这些是Pure Storage高管本周在伦敦公司Accelerate活动上对Computerweekly.com所表达的观点。

自然地,这些确定的关键任务与Pure存储硬件产品最近增加的功能领域完全吻合,包括其最近推出的键值加速器,以及其提供按需容量的能力。

但它们也说明了在AI成熟度的现阶段(被称为"后训练阶段")组织处理AI面临的关键挑战。

在本文中,我们将探讨客户在AI生产阶段对存储的需求,以及持续的数据摄取和推理过程。

不要购买GPU,它们变化太快

大多数组织不会训练自己的AI模型,因为目前这样做成本太高。这是因为GPU硬件的购买成本极其昂贵,而且它的发展速度如此之快,以至于很快就会过时。

因此,大多数组织现在倾向于在云端购买GPU容量用于训练阶段。

当GPU硬件可能在一两代内就过时时,试图构建内部AI训练场毫无意义。

这是Pure Storage创始人兼首席愿景官John "Coz" Colgrove的观点。

"大多数组织会说,'哦,我想买这个设备,我会用它五年,我会在五到七年内折旧,'"他说。"但现在你不能对GPU这样做。"

"我认为当事物以惊人的速度改进时,你最好租赁而不是购买。这就像买车一样,"Colgrove说。"如果你要保留它六、七、八年或更长时间,你就买它,但如果你要保留它两年然后换成更新的,你就租赁它。"

寻找你的AI杀手级应用

对于大多数组织来说,AI的实际利用不会发生在建模阶段。相反,它将出现在他们可以用它为自己的业务构建杀手级应用的地方。

Colgrove举了一个银行的例子。"对于银行,我们知道杀手级应用将是面向客户的东西,"他说。"但AI现在是如何工作的?我从与客户交互的任何数据库中取出所有数据。我把它吸入其他系统。我像旧的ETL批处理过程一样转换它,花费数周时间训练它,然后得到结果。"

"那永远不会是杀手级应用,"Colgrove说。"杀手级应用将涉及我可以做的某种推理。但如果它是面向客户的,那么推理必须应用于常规系统中。"

"这意味着当你真正应用AI从中获得价值时,你会想要将其应用于你已经拥有的数据,你已经与客户在做的事情。"

换句话说,对于大多数客户来说,AI的挑战在于生产阶段,更准确地说是(快速)策划和添加数据的能力,并对其运行推理以微调现有AI模型。然后当你有下一个进一步改进事物的想法时,能够再次做到这一切。

Pure Storage EMEA现场首席技术官Fred Lherault总结道:"所以这真的是关于我如何将模型连接到我的数据?首先意味着,我是否做了正确水平的发现我的数据是什么,策划我的数据,让它准备好用于AI,并将其放入可以被模型访问的架构中?"

敏捷AI的关键技术基础

因此,推理阶段已成为大多数AI客户的关键焦点。在这里,挑战是能够策划和管理数据,以在其生产生命周期内构建和重新迭代AI模型。这意味着客户以敏捷的方式连接他们自己的数据。

这意味着使用包括向量数据库、RAG管道、协作助手功能以及提示词缓存和重用在内的技术。

存储与这些相关的关键挑战是双重的。这意味着能够连接到RAG数据源和向量数据库。这也意味着能够处理存储容量的大幅跳跃,并减少这样做的需要。这两者通常是相互关联的。

"当你将数据放入向量数据库时,会发生一件有趣的事情,"Lherault说。"需要一些计算,但然后数据会用可以搜索的向量进行增强。这是向量数据库的整个目标,这种增强有时会导致数据的10倍放大。"

"如果你有一TB的源数据想要与AI模型一起使用,这意味着你需要一个10TB的数据库来运行它,"他说。"当许多组织想要将其数据与AI模型一起使用时,所有这些过程对他们来说都是新的。"

处理对存储容量的需求

这种容量跳跃也可能在检查点等任务中发生,这些任务可能看到大量数据作为快照式点创建,以在AI处理中回滚。

Pure旨在通过其Evergreen即服务模型来解决这些问题,该模型允许客户快速增加容量。

该公司还建议减少存储量过快增长的方法,以及提高性能。

其最近推出的键值加速器允许客户存储AI提示词,以便可以重复使用。通常,大语言模型会访问代表先前响应的缓存Token,但GPU缓存是有限的,所以答案通常需要重新计算。Pure的KV加速器允许Token以文件或对象格式保存在其存储中。

这可以将响应速度提高20倍,Lherault说。"你开始有更多用户问不同问题时,你的缓存用尽得更快,"他补充道。"如果你有两个用户同时问同样的问题,并在两个GPU上这样做,他们都必须做同样的计算。这不是很高效。"

"我们允许它实际上将那些预计算的键值存储在我们的存储上,所以下次有人问一个已经被问过的问题或需要相同Token时,如果我们这边有它,GPU就不需要做计算,"Lherault说。

"它有助于减少你需要的GPU数量,而且在一些生成数千个Token的复杂问题上,我们有时看到答案速度快了20倍。"

Q&A

Q1:什么是检索增强生成(RAG)技术?

A:检索增强生成(RAG)是一种AI技术,它结合了信息检索和生成能力,允许AI模型在生成回答时从外部数据源检索相关信息,从而提供更准确和实时的回答。

Q2:为什么大多数组织不应该购买GPU来训练AI模型?

A:因为GPU硬件成本极其昂贵,而且技术发展速度非常快,设备很容易在一两代内就过时。相比购买,在云端租赁GPU容量进行训练更加经济实用。

Q3:Pure Storage的键值加速器如何提升AI性能?

A:键值加速器允许存储AI提示词和预计算的Token,避免重复计算。当用户询问相似问题时,系统可以直接从存储中获取答案,响应速度可提升20倍,同时减少对GPU资源的需求。

来源:Computer Weekly

0赞

好文章,需要你的鼓励

2025

10/10

08:59

分享

点赞

邮件订阅