MinIO正在成为AI的多模态数据存储方案,为生成式AI提供数据访问和使用工具。这一点在与MinIO联合创始人兼联合CEO AB Periasamy的深度访谈中得到了印证。
在采访的第一部分,我们了解到MinIO为AI提供快速对象数据访问支持,使其意识到自己本质上是一家键值数据库公司,而键值存储可以同时包含非结构化的对象式数据和结构化的表格式Iceberg数据。
从AI角度来看,将Iceberg式数据项进行向量化是没有意义的,因为与文字或图像不同,它们不是具有可向量化维度特征的独立数据。在表格和生成式AI大语言模型及智能体之间需要某种中介逻辑/抽象层,来连接它们的非结构化数据向量焦点和结构化数据搜索。
**结构化数据作为对象存储的上层**
Periasamy解释说:"在对象存储早期,我们发现结构化数据是非结构化数据之上的一层。例如,Iceberg实际上就是类似Parquet对象的集合。基本上,如果你有一个10PB的表格,你不会存储一个10TB的对象。它将是较小Parquet对象的集合。每1000万行排序后,分割成一个Parquet对象,然后你就有了大量Parquet对象的集合。"
企业持续从其他数据库转储捕获的数据作为变更数据捕获或机器生成的遥测数据。所有这些都以表格格式呈现,但表格数据作为Parquet对象写入对象存储,只是对象,还有清单文件和元数据描述。所有这些都只是对象存储之上的一层。
**对象和表格成为一等公民**
MinIO目前正在开发的是:既有对象又有表格。结构化数据进入表格,非结构化数据进入对象,两者都成为对象存储内的一等公民。
MinIO已经通过promptObject展示了,如果你有销售收据或任何类型的非结构化数据,你可以像查询结构化数据一样查询非结构化数据资产。但如果你存储的全是结构化数据,就不需要模拟。相反,模型需要发现,比如说你有数百PB的表格数据。
**AI处理结构化数据的独特方式**
与只需要触及数据子集的数据库查询不同,生成式AI需要理解整个数据集。对于结构化数据,向量化并不是正确的方法。
Periasamy说:"如果是非结构化数据,你对其进行向量化,但如果是结构化数据,你如何向量化呢?在结构化数据中,我能向量化每一行吗?这根本没有任何意义。正确的处理方式是有一个链接层,AI首先需要发现表格。"
正确的方法是使用一个链接层,该层知道如何按需加载你正在寻找的内容。就像GPU空间中的KV缓存一样。你不能将所有表格加载到内存中。首先要经历一个发现阶段,了解业务分析师从业务角度提出的问题。
MinIO发现向量化在这里并不起作用。相反,使用元数据信息创建一个结构,将其提供给AI,并利用AI生成代码的能力。实际上,智能体是动态创建的。这里的链接是生成式AI编写代码,该代码理解表格数据的结构。
**KV缓存卸载支持**
所有推理引擎都已内置KV缓存。卸载允许KV缓存实际存储和检索、重新hydrate缓存,还处理非常大的内存,它们需要对键值存储的最快访问。MinIO已经支持KV缓存卸载接口,并正与各种推理引擎和客户合作采用它。
**promptObject API**
MinIO的promptObject API是S3 API的扩展,"让用户或应用程序与非结构化对象对话,就像与大语言模型对话一样。这意味着你可以要求对象描述自己,找到与其他对象的相似性和差异。"
例如,对象存储中可能有一张餐厅收据的图像,该收据上有"客人"字样,后面跟着数字4。promptObject API可以用来"询问对象有多少人来吃饭?"用户可以询问收据的几乎任何问题,如平均账单金额、所在城市、顶部图像是什么、最贵的菜是什么等。
总体而言,MinIO不仅仅是对象存储供应商,它是生成式AI大语言模型和智能体的源数据供应商,为非结构化数据支持向量,为结构化数据支持SQL类型查询。其自有的大语言模型为业务分析师输入的每个查询编写所需的SQL代码应用。
Q&A
Q1:MinIO如何处理结构化数据和非结构化数据的融合?
A:MinIO将对象和表格都作为一等公民处理。结构化数据进入表格,非结构化数据进入对象,两者都在对象存储内统一管理。通过promptObject API,非结构化数据可以像结构化数据一样被查询,而结构化数据则通过AI生成的代码进行理解和处理。
Q2:为什么MinIO不对结构化数据进行向量化处理?
A:因为结构化数据与文字或图像不同,它们不是具有可向量化维度特征的独立数据。对结构化数据的每一行进行向量化没有意义。MinIO采用AI生成代码的方式来理解表格数据结构,这比让AI在人类语言层面理解数据更有效。
Q3:promptObject API能实现什么功能?
A:promptObject API是S3 API的扩展,让用户可以像与大语言模型对话一样与非结构化对象对话。比如对餐厅收据图像询问"有多少人来吃饭"、"平均账单金额是多少"、"最贵的菜是什么"等问题,MinIO后端运行多模态大语言模型来处理这些查询。
好文章,需要你的鼓励
OpenAI首席执行官Sam Altman表示,鉴于投资者的AI炒作和大量资本支出,我们目前正处于AI泡沫中。他承认投资者对AI过度兴奋,但仍认为AI是长期以来最重要的技术。ChatGPT目前拥有7亿周活跃用户,是全球第五大网站。由于服务器容量不足,OpenAI无法发布已开发的更好模型,计划在不久的将来投资万亿美元建设数据中心。
阿里巴巴团队提出FantasyTalking2,通过创新的多专家协作框架TLPO解决音频驱动人像动画中动作自然度、唇同步和视觉质量的优化冲突问题。该方法构建智能评委Talking-Critic和41万样本数据集,训练三个专业模块分别优化不同维度,再通过时间步-层级自适应融合实现协调。实验显示全面超越现有技术,用户评价提升超12%。
英伟达推出新的小型语言模型Nemotron-Nano-9B-v2,拥有90亿参数,在同类基准测试中表现最佳。该模型采用Mamba-Transformer混合架构,支持多语言处理和代码生成,可在单个A10 GPU上运行。独特的可切换推理功能允许用户通过控制令牌开启或关闭AI推理过程,并可管理推理预算以平衡准确性和延迟。模型基于合成数据集训练,采用企业友好的开源许可协议,支持商业化使用。
UC Berkeley团队提出XQUANT技术,通过存储输入激活X而非传统KV缓存来突破AI推理的内存瓶颈。该方法能将内存使用量减少至1/7.7,升级版XQUANT-CL更可实现12.5倍节省,同时几乎不影响模型性能。研究针对现代AI模型特点进行优化,为在有限硬件资源下运行更强大AI模型提供了新思路。