大多数组织永远不会训练自己的AI模型。相反,大多数客户在AI领域的关键挑战在于将其应用到生产应用程序和推理中,微调和数据管理是核心任务。
关键在于使用检索增强生成(RAG)和向量数据库、重复使用AI提示词的能力,以及允许用户用自然语言查询企业信息的协作助手功能。
这些是Pure Storage高管本周在伦敦公司Accelerate活动上对Computerweekly.com所表达的观点。
自然地,这些确定的关键任务与Pure存储硬件产品最近增加的功能领域完全吻合,包括其最近推出的键值加速器,以及其提供按需容量的能力。
但它们也说明了在AI成熟度的现阶段(被称为"后训练阶段")组织处理AI面临的关键挑战。
在本文中,我们将探讨客户在AI生产阶段对存储的需求,以及持续的数据摄取和推理过程。
不要购买GPU,它们变化太快
大多数组织不会训练自己的AI模型,因为目前这样做成本太高。这是因为GPU硬件的购买成本极其昂贵,而且它的发展速度如此之快,以至于很快就会过时。
因此,大多数组织现在倾向于在云端购买GPU容量用于训练阶段。
当GPU硬件可能在一两代内就过时时,试图构建内部AI训练场毫无意义。
这是Pure Storage创始人兼首席愿景官John "Coz" Colgrove的观点。
"大多数组织会说,'哦,我想买这个设备,我会用它五年,我会在五到七年内折旧,'"他说。"但现在你不能对GPU这样做。"
"我认为当事物以惊人的速度改进时,你最好租赁而不是购买。这就像买车一样,"Colgrove说。"如果你要保留它六、七、八年或更长时间,你就买它,但如果你要保留它两年然后换成更新的,你就租赁它。"
寻找你的AI杀手级应用
对于大多数组织来说,AI的实际利用不会发生在建模阶段。相反,它将出现在他们可以用它为自己的业务构建杀手级应用的地方。
Colgrove举了一个银行的例子。"对于银行,我们知道杀手级应用将是面向客户的东西,"他说。"但AI现在是如何工作的?我从与客户交互的任何数据库中取出所有数据。我把它吸入其他系统。我像旧的ETL批处理过程一样转换它,花费数周时间训练它,然后得到结果。"
"那永远不会是杀手级应用,"Colgrove说。"杀手级应用将涉及我可以做的某种推理。但如果它是面向客户的,那么推理必须应用于常规系统中。"
"这意味着当你真正应用AI从中获得价值时,你会想要将其应用于你已经拥有的数据,你已经与客户在做的事情。"
换句话说,对于大多数客户来说,AI的挑战在于生产阶段,更准确地说是(快速)策划和添加数据的能力,并对其运行推理以微调现有AI模型。然后当你有下一个进一步改进事物的想法时,能够再次做到这一切。
Pure Storage EMEA现场首席技术官Fred Lherault总结道:"所以这真的是关于我如何将模型连接到我的数据?首先意味着,我是否做了正确水平的发现我的数据是什么,策划我的数据,让它准备好用于AI,并将其放入可以被模型访问的架构中?"
敏捷AI的关键技术基础
因此,推理阶段已成为大多数AI客户的关键焦点。在这里,挑战是能够策划和管理数据,以在其生产生命周期内构建和重新迭代AI模型。这意味着客户以敏捷的方式连接他们自己的数据。
这意味着使用包括向量数据库、RAG管道、协作助手功能以及提示词缓存和重用在内的技术。
存储与这些相关的关键挑战是双重的。这意味着能够连接到RAG数据源和向量数据库。这也意味着能够处理存储容量的大幅跳跃,并减少这样做的需要。这两者通常是相互关联的。
"当你将数据放入向量数据库时,会发生一件有趣的事情,"Lherault说。"需要一些计算,但然后数据会用可以搜索的向量进行增强。这是向量数据库的整个目标,这种增强有时会导致数据的10倍放大。"
"如果你有一TB的源数据想要与AI模型一起使用,这意味着你需要一个10TB的数据库来运行它,"他说。"当许多组织想要将其数据与AI模型一起使用时,所有这些过程对他们来说都是新的。"
处理对存储容量的需求
这种容量跳跃也可能在检查点等任务中发生,这些任务可能看到大量数据作为快照式点创建,以在AI处理中回滚。
Pure旨在通过其Evergreen即服务模型来解决这些问题,该模型允许客户快速增加容量。
该公司还建议减少存储量过快增长的方法,以及提高性能。
其最近推出的键值加速器允许客户存储AI提示词,以便可以重复使用。通常,大语言模型会访问代表先前响应的缓存Token,但GPU缓存是有限的,所以答案通常需要重新计算。Pure的KV加速器允许Token以文件或对象格式保存在其存储中。
这可以将响应速度提高20倍,Lherault说。"你开始有更多用户问不同问题时,你的缓存用尽得更快,"他补充道。"如果你有两个用户同时问同样的问题,并在两个GPU上这样做,他们都必须做同样的计算。这不是很高效。"
"我们允许它实际上将那些预计算的键值存储在我们的存储上,所以下次有人问一个已经被问过的问题或需要相同Token时,如果我们这边有它,GPU就不需要做计算,"Lherault说。
"它有助于减少你需要的GPU数量,而且在一些生成数千个Token的复杂问题上,我们有时看到答案速度快了20倍。"
Q&A
Q1:什么是检索增强生成(RAG)技术?
A:检索增强生成(RAG)是一种AI技术,它结合了信息检索和生成能力,允许AI模型在生成回答时从外部数据源检索相关信息,从而提供更准确和实时的回答。
Q2:为什么大多数组织不应该购买GPU来训练AI模型?
A:因为GPU硬件成本极其昂贵,而且技术发展速度非常快,设备很容易在一两代内就过时。相比购买,在云端租赁GPU容量进行训练更加经济实用。
Q3:Pure Storage的键值加速器如何提升AI性能?
A:键值加速器允许存储AI提示词和预计算的Token,避免重复计算。当用户询问相似问题时,系统可以直接从存储中获取答案,响应速度可提升20倍,同时减少对GPU资源的需求。
好文章,需要你的鼓励
谷歌今日发布Gemini Enterprise,这是一个集成了先进AI模型、聊天机器人和智能代理的一体化企业平台。该平台提供统一聊天界面,可安全连接各种数据源,包括Google Workspace、Microsoft 365等企业应用。平台内置超过1500个AI代理,支持无代码构建工具,用户可创建自动化工作流程。标准版年费每席位每月30美元起。
华中科技大学联合华为和上海交大研究团队开发出革命性3D人体重建系统Snap-Snap,仅需正面和背面两张照片即可在190毫秒内生成完整3D人像。该技术突破了传统方法对昂贵设备和复杂人体先验模型的依赖,通过智能几何推理和侧面增强算法实现高质量重建,为虚拟现实、游戏开发等领域的大众化应用奠定基础。
OpenAI推出的AI视频生成应用Sora在不到五天内下载量突破100万次,增长速度超过ChatGPT。该应用类似TikTok,提供无限垂直视频流,但所有视频均由AI生成。用户只需输入提示词即可创建10秒视频,还可通过Cameo功能制作个人视频。尽管目前仅在北美地区开放且需要邀请码使用,但已引发版权争议和娱乐行业反弹。
这项研究介绍了aiXiv——首个专为AI科学家设计的开放学术平台。该平台由多伦多大学等18个机构联合开发,支持AI独立完成论文提交、同行评审和发表全流程。通过多智能体架构和五阶段安全防护机制,平台实现了81%的评判准确率,并显著提升了AI生成研究的质量。这标志着科学研究范式的重大转变。