MinIO为对象存储提供生成式AI升级与Iceberg集成

MinIO正在其对象存储与生成式AI之间构建连接层,涉及采用Iceberg表格的结构化形式。联合创始人兼联席CEO AB Periasamy表示,生成式AI推动了企业数据基础设施需求,直接促进公司增长。MinIO员工数量已达160多人,并积极扩展市场业务。公司正致力于解决大规模结构化数据与大语言模型之间的桥接问题,特别是如何让LLM理解Iceberg表格等结构化数据。

采访:MinIO正在构建其对象存储与生成式AI之间的连接层,这涉及以Iceberg表的形式拥抱结构化数据。这还需要在它们之间建立某种连接,直到现在,还要连接以向量为重点的生成式AI模型和智能体。

我们与MinIO联合创始人兼联合CEO AB Periasamy以及其首席营销官Erik Frieberg进行了对话,探讨这一话题。这个话题相当复杂,我们将分两部分进行报道,这是第一部分。采访内容已为简洁性进行编辑。

Blocks & Files:目前对MinIO影响最大的是什么?

AB Periasamy:对我们来说最好的事情就是生成式AI,现在每个企业的预算都转向生成式AI,竞争开始转向数据。谁拥有更多数据以及如何利用数据?这直接促进了我们公司的增长。因为一旦你开始扩展你的数据和AI数据基础设施,它就指向对象存储,客户也在寻找云之外的解决方案。云已经落后于生成式AI,数据规模正在推动客户转向良好的私有云和私有云对象存储,一切都在我们的后院。我们在AWS之外创造了这个市场,这促进了我们的增长。你可以看到公司在所有方面都在积极增长和招聘,工程、营销、销售等等。我们推出了政府业务部门,正在启动合作伙伴计划。总的来说,公司正在经历升级和积极增长。

Blocks & Files:MinIO现在有多少员工?

AB Periasamy:我不算了,Erik,有多少?大概150多人。

Erik Frieberg:我觉得现在有160多人。下周会达到170人左右。

Blocks & Files:MinIO的营销情况如何?

Erik Frieberg:我不久前加入负责营销。我11月加入前一个月的市场推广组织与今天相比差异巨大。我认为,毫不夸张地说,比一年前增长了八到九倍。

Blocks & Files:为什么战略是如此快速地建设?

AB Periasamy:我做的决定。我只说高层观点,尽管相对于其他公司我们在积极招聘,但我们对招聘非常谨慎,因为在这个AI世界中,我们必须以不同的方式思考招聘。今天所有初级工作,机器都能做得更好,大多数其他公司积极招聘然后积极裁员。

对我们来说,我们把团队当作家人,花时间仔细考虑你带入的每一个人是非常重要的。两年后、五年后,他们还会和这个家庭在一起吗?他们会更有生产力吗?因为他们可以将自己与AI结合?这是唯一的希望。人加机器将比人和机器孤立存在要好。

所以要谨慎地引入合适的人来填补我们组织内部的空缺。这就是我们的看法。所以,在很多方面,我实际上认为这还不够快,但我宁愿少招聘,不招聘任何人,也不愿积极招聘。

Erik Frieberg:我要说三点。首先,我实际上会说AB可能开始招聘太晚了,所以这应该已经在上升了。其次是拥有AIStor的区别。我来自开源背景。我在MongoDB工作时没有商业差异化,这产生了很大的不同。你只能向客户销售这么多支持和服务。

你必须拥有差异化的生产软件,具有成为增长催化剂的功能。那个[AIStor]在10月左右推出,我认为人们现在真正理解它,看到了区别。你将看到未来会有一些关于此的公告,所以这创造了更多机会。然后就像AB说的,这不是目标。不是他说:"去招聘5个营销人员。"他说:"嘿,我们现在需要更多产品营销,因为我们有更多要谈论的。"

Blocks & Files:AB,MinIO是一家存储公司,对于使用生成式AI、大语言模型和智能体的客户,在存储层和他们的智能体和大语言模型之间有一个软件栈。那么在这个栈中,你认为MinIO的活动在哪里结束?边界在哪里,它是否正在向栈上游移动?

AB Periasamy:是的。实际上,我们一直以来讲述的故事现在比过去更能与客户产生共鸣。我们总是说MinIO对象存储是一个键值存储。什么是键值存储?它是一个数据存储。过去我们更接近Oracle而不是EMC。数据存储是所有数据库中最简单的。它是一个具有获取和放置对象的键值存储,但它需要在大规模处理数据时不丢失单个对象。它必须符合事务ACID,所有这些都要扩展,同时在根本上保持简单性。所以我们总是认为自己是一家数据库公司,只是我们谈论的是非结构化数据。由于生成式AI,事情开始发生变化。

我们引入Erik是因为他来自MongoDB。我们的文化更接近MongoDB而不是Pure或NetApp或MCA软件公司,在现代生成式AI时代,规模要大得多。你能走的唯一道路是横向扩展,然后是软件定义。对象存储和生成式AI上层之间正在发生一些有趣的集成。

AI通过MCP服务器直接与对象存储对话。是智能体在与对象存储交互,无论是在管理方面还是数据发现和处理数据本身。这里出现了一些有趣的挑战。如果是电子表格,如果是CSV文件,单个对象?假设我有一个数据库文件,我能分析这个吗?我们谈论的是企业拥有10PB的表;数据存储在Iceberg表中。过去是专有数据存储在专有数据库中。他们现在越来越多地转向Iceberg开放表格式。

如何让大语言模型理解如此规模的数据?这是我们需要努力的桥接因素,这些也是我们积极投资的领域。模型可能仍在OpenAI或Anthropic上运行,但企业数据永远不会离开他们的设施。他们如何发现数据?只有元数据或匿名化形式的智能被共享。我们正在积极致力于栈的这一部分。

这里还有另一个有趣的转折,如果是非结构化数据,如二进制大对象、照片、视频、文档,那么每个人都知道大语言模型如何利用它们。新兴领域是结构化数据,像Iceberg表这样的结构化数据,而且是大规模的。大语言模型如何理解结构化数据?

评论

AB要表达的观点是,Iceberg表是结构化的,将它们向量化是没有意义的,因为与单词或图像不同,它们不是独立存在的,没有可以向量化的维度方面。在表和生成式AI大语言模型和智能体之间需要一些中间逻辑/抽象,桥接它们的非结构化数据向量焦点和结构化数据搜索。

来源:BLOCKS & FILES

0赞

好文章,需要你的鼓励

2025

07/25

10:22

分享

点赞

邮件订阅