随着人工智能在各行各业的企业运营中发挥着变革性作用,数据存储方面的关键挑战不断涌现——无论模型多么先进,其性能都取决于快速、安全、可靠地访问海量数据的能力。如果没有合适的数据存储基础设施,即使是最强大的AI系统也可能因缓慢、分散或低效的数据管道而陷入困境。
这一话题成为VB Transform大会第一天的焦点,会议聚焦于由PEAK:AIO和Solidigm引领的医学影像AI创新。他们与医学AI开放网络(MONAI)项目——一个用于开发和部署医学影像AI的开源框架——携手合作,正在重新定义数据基础设施如何支持医院中的实时推理和训练,从增强诊断到推动先进研究和操作用例。
在临床AI边缘的存储创新
在微软风投基金M12管理合伙人Michael Stewart的主持下,会议汇集了PEAK:AIO首席执行官Roger Cummings和Solidigm产品与市场总监Greg Matson的深刻见解。对话探讨了下一代高容量存储架构如何通过提供处理临床环境中海量数据集所需的速度、安全性和可扩展性,为医学AI开辟新的道路。
至关重要的是,两家公司从早期就深度参与了MONAI项目。MONAI与伦敦国王学院等机构合作开发,专门用于开发和部署医学影像AI模型。这个开源框架的工具集专为医疗保健的独特需求量身定制,包括用于DICOM支持、3D图像处理和模型预训练的库和工具,使研究人员和临床医生能够构建用于肿瘤分割和器官分类等任务的高性能模型。
MONAI的一个关键设计目标是支持本地部署,允许医院在利用标准GPU服务器进行训练和推理的同时,保持对敏感患者数据的完全控制。这将框架的性能与其底层数据基础设施紧密联系,需要快速、可扩展的存储系统来充分支持实时临床AI的需求。这正是Solidigm和PEAK:AIO发挥作用的地方:Solidigm提供高密度闪存存储,而PEAK:AIO专门为AI工作负载定制存储系统。
Cummings解释道:"我们很幸运能够早期与伦敦国王学院和Sebastien Orslund教授合作开发MONAI。通过与Orslund的合作,我们开发了底层基础设施,使生命科学领域的研究人员、医生和生物学家能够在这个框架基础上快速构建。"
满足医疗AI的双重存储需求
Matson指出,他看到存储硬件出现了明显的分化,不同的解决方案针对AI数据管道的特定阶段进行了优化。对于MONAI等用例、类似的边缘AI部署以及涉及训练集群供给的场景,超高容量固态存储发挥着关键作用,因为这些环境通常受到空间和功耗限制,但仍需要本地访问海量数据集。
例如,MONAI能够在医院现有IT基础设施的单个节点上存储超过200万次全身CT扫描。Matson说:"非常受限的空间、功耗和超高容量存储实现了相当令人瞩目的结果。"这种效率对医疗保健边缘AI来说是游戏规则的改变者,使机构能够在本地运行先进的AI模型,而不会影响性能、可扩展性或数据安全性。
相比之下,涉及实时推理和主动模型训练的工作负载对系统提出了截然不同的要求。这些任务需要能够提供极高每秒输入/输出操作数(IOPS)的存储解决方案,以跟上高带宽内存(HBM)所需的数据吞吐量,并确保GPU得到充分利用。PEAK:AIO的软件定义存储层与Solidigm的高性能固态硬盘(SSD)相结合,解决了这一范围的两端需求——在整个AI管道中提供所需的容量、效率和速度。
边缘临床AI工作负载的软件定义层
Cummings解释说,PEAK:AIO的软件定义AI存储技术与Solidigm的高性能SSD配对时,使MONAI能够以临床AI所需的速度读取、写入和存档海量数据集。这种组合加速了模型训练并提高了医学影像的准确性,同时在为医疗保健环境量身定制的开源框架内运行。
Cummings说:"我们提供了一个可以部署在任何商用服务器上的软件定义层,将其转换为AI或HPC工作负载的高性能系统。在边缘环境中,我们采用相同的能力并将其缩放到单个节点,使推理更接近数据所在的位置。"
一个关键能力是PEAK:AIO如何通过将内存更直接地集成到AI基础设施中来帮助消除传统的内存瓶颈。Cummings说:"我们将内存视为基础设施本身的一部分——这一点经常被忽视。我们的解决方案不仅扩展存储,还扩展内存工作空间和与之相关的元数据。"这对于那些无法承受——无论是在空间还是成本方面——重复运行大型模型的客户来说意义重大。通过保持内存驻留令牌的活跃和可访问性,PEAK:AIO实现了高效的本地化推理,无需持续重新计算。
让智能更接近数据
Cummings强调,企业需要采用更战略性的方法来管理AI工作负载。"你不能只是一个目的地。你必须理解工作负载。我们与Solidigm及其基础设施合作开展了一些令人难以置信的技术工作,在如何处理数据方面更加智能,从如何从单个节点获得性能开始,"Cummings解释道。"因此,随着推理成为如此巨大的推动力,我们看到通才变得更加专业化。我们现在正在将从单个节点完成的工作推向更接近数据的地方,以提高效率。我们想要更智能的数据,对吧?做到这一点的唯一方法就是更接近那些数据。"
大规模AI部署中出现了一些明显的趋势,特别是在新建的绿地数据中心。这些设施设计有高度专业化的硬件架构,将数据尽可能接近GPU。为了实现这一点,它们严重依赖全固态存储——特别是超高容量SSD——旨在提供具有保持GPU持续高吞吐量数据供给所需速度和可访问性的PB级存储。
Cumming解释道:"现在同样的技术基本上在企业边缘以微观形式出现。因此,对于AI系统的采购者来说,确定如何选择硬件和系统供应商变得至关重要,甚至要确保如果你想从系统中获得最佳性能,你要在全固态上运行。这允许你在单个系统中引入大量数据,就像MONAI示例一样——它在单个系统中有超过1500万张图像。这在边缘的小型系统中实现了令人难以置信的处理能力。"
好文章,需要你的鼓励
字节跳动智能创作实验室发布革命性AI视频数据集Phantom-Data,解决视频生成中的"复制粘贴"问题。该数据集包含100万个跨场景身份一致配对,通过三阶段构建流程实现主体检测、多元化检索和身份验证,显著提升文本遵循能力和视频质量。
ByteDance智能创作实验室发布的Phantom-Data是首个大规模跨情境主体一致性视频生成数据集,包含约100万个身份一致配对样本。该数据集通过创新的三阶段构建管道,从5300万视频和30亿图像中精选高质量跨场景配对,有效解决AI视频生成中的"复制粘贴"问题,显著提升文本遵循能力和视觉质量。
被盗凭证导致80%的企业数据泄露。随着AI智能体投入生产,管理10万员工的企业将需要处理超过100万个身份。传统身份访问管理架构无法应对智能体AI的大规模部署。领先厂商正采用蓝牙低功耗技术替代硬件令牌,实现基于距离的身份验证。行为分析可实时捕获被入侵的智能体,零信任架构扩展至智能体部署。这代表了自云计算普及以来最重要的安全变革。
普林斯顿大学研究团队开发了ReasonFlux-PRM,这是首个能深度理解AI复杂思维过程的评分系统。不同于传统只看最终答案的评估方法,新系统能评判AI思考轨迹的每个步骤质量,在数学和科学推理任务上实现了平均4.5%-12.1%的性能提升,为AI教育和训练提供了突破性的解决方案。