MinIO正在成为AI的多模态数据存储方案,为生成式AI提供数据访问和使用工具。这一点在与MinIO联合创始人兼联合CEO AB Periasamy的深度访谈中得到了印证。
在采访的第一部分,我们了解到MinIO为AI提供快速对象数据访问支持,使其意识到自己本质上是一家键值数据库公司,而键值存储可以同时包含非结构化的对象式数据和结构化的表格式Iceberg数据。
从AI角度来看,将Iceberg式数据项进行向量化是没有意义的,因为与文字或图像不同,它们不是具有可向量化维度特征的独立数据。在表格和生成式AI大语言模型及智能体之间需要某种中介逻辑/抽象层,来连接它们的非结构化数据向量焦点和结构化数据搜索。
**结构化数据作为对象存储的上层**
Periasamy解释说:"在对象存储早期,我们发现结构化数据是非结构化数据之上的一层。例如,Iceberg实际上就是类似Parquet对象的集合。基本上,如果你有一个10PB的表格,你不会存储一个10TB的对象。它将是较小Parquet对象的集合。每1000万行排序后,分割成一个Parquet对象,然后你就有了大量Parquet对象的集合。"
企业持续从其他数据库转储捕获的数据作为变更数据捕获或机器生成的遥测数据。所有这些都以表格格式呈现,但表格数据作为Parquet对象写入对象存储,只是对象,还有清单文件和元数据描述。所有这些都只是对象存储之上的一层。
**对象和表格成为一等公民**
MinIO目前正在开发的是:既有对象又有表格。结构化数据进入表格,非结构化数据进入对象,两者都成为对象存储内的一等公民。
MinIO已经通过promptObject展示了,如果你有销售收据或任何类型的非结构化数据,你可以像查询结构化数据一样查询非结构化数据资产。但如果你存储的全是结构化数据,就不需要模拟。相反,模型需要发现,比如说你有数百PB的表格数据。
**AI处理结构化数据的独特方式**
与只需要触及数据子集的数据库查询不同,生成式AI需要理解整个数据集。对于结构化数据,向量化并不是正确的方法。
Periasamy说:"如果是非结构化数据,你对其进行向量化,但如果是结构化数据,你如何向量化呢?在结构化数据中,我能向量化每一行吗?这根本没有任何意义。正确的处理方式是有一个链接层,AI首先需要发现表格。"
正确的方法是使用一个链接层,该层知道如何按需加载你正在寻找的内容。就像GPU空间中的KV缓存一样。你不能将所有表格加载到内存中。首先要经历一个发现阶段,了解业务分析师从业务角度提出的问题。
MinIO发现向量化在这里并不起作用。相反,使用元数据信息创建一个结构,将其提供给AI,并利用AI生成代码的能力。实际上,智能体是动态创建的。这里的链接是生成式AI编写代码,该代码理解表格数据的结构。
**KV缓存卸载支持**
所有推理引擎都已内置KV缓存。卸载允许KV缓存实际存储和检索、重新hydrate缓存,还处理非常大的内存,它们需要对键值存储的最快访问。MinIO已经支持KV缓存卸载接口,并正与各种推理引擎和客户合作采用它。
**promptObject API**
MinIO的promptObject API是S3 API的扩展,"让用户或应用程序与非结构化对象对话,就像与大语言模型对话一样。这意味着你可以要求对象描述自己,找到与其他对象的相似性和差异。"
例如,对象存储中可能有一张餐厅收据的图像,该收据上有"客人"字样,后面跟着数字4。promptObject API可以用来"询问对象有多少人来吃饭?"用户可以询问收据的几乎任何问题,如平均账单金额、所在城市、顶部图像是什么、最贵的菜是什么等。
总体而言,MinIO不仅仅是对象存储供应商,它是生成式AI大语言模型和智能体的源数据供应商,为非结构化数据支持向量,为结构化数据支持SQL类型查询。其自有的大语言模型为业务分析师输入的每个查询编写所需的SQL代码应用。
Q&A
Q1:MinIO如何处理结构化数据和非结构化数据的融合?
A:MinIO将对象和表格都作为一等公民处理。结构化数据进入表格,非结构化数据进入对象,两者都在对象存储内统一管理。通过promptObject API,非结构化数据可以像结构化数据一样被查询,而结构化数据则通过AI生成的代码进行理解和处理。
Q2:为什么MinIO不对结构化数据进行向量化处理?
A:因为结构化数据与文字或图像不同,它们不是具有可向量化维度特征的独立数据。对结构化数据的每一行进行向量化没有意义。MinIO采用AI生成代码的方式来理解表格数据结构,这比让AI在人类语言层面理解数据更有效。
Q3:promptObject API能实现什么功能?
A:promptObject API是S3 API的扩展,让用户可以像与大语言模型对话一样与非结构化对象对话。比如对餐厅收据图像询问"有多少人来吃饭"、"平均账单金额是多少"、"最贵的菜是什么"等问题,MinIO后端运行多模态大语言模型来处理这些查询。
好文章,需要你的鼓励
很多人担心被AI取代,陷入无意义感。按照杨元庆的思路,其实无论是模型的打造者,还是模型的使用者,都不该把AI放在人的对立面。
这项由清华大学和字节跳动联合开展的研究首次实现了高保真视频换脸技术的重大突破。DreamID-V框架通过创新的身份锚定视频合成器和多模态条件注入机制,成功解决了传统视频换脸技术中身份相似度低、时间不连贯等核心问题,在保持原视频动作表情的同时实现完美的身份替换,为影视制作、创意设计等领域带来革命性变化。
谷歌宣布对Gmail进行重大升级,全面集成Gemini AI功能,将其转变为"个人主动式收件箱助手"。新功能包括AI收件箱视图,可按优先级自动分组邮件;"帮我快速了解"功能提供邮件活动摘要;扩展"帮我写邮件"工具至所有用户;支持复杂问题查询如"我的航班何时降落"。部分功能免费提供,高级功能需付费订阅。谷歌强调用户数据安全,邮件内容不会用于训练公共AI模型。
阿尔伯塔大学研究团队开发出名为Gnosis的AI自我检查系统,能让人工智能实时监测自己的内部"思维状态",判断答案可靠性。该系统通过分析AI的隐藏状态和注意力模式,在数学推理任务中达到95%准确率,超越传统方法和大型审核模型,且仅需500万参数。更重要的是,它能在AI回答40%时就预测最终答案质量,支持早期错误检测,为构建更诚实可靠的AI系统开辟了新路径。