更好的非结构化数据管理是Komprise成立的初衷。该公司由CEO Kumar Goswami与总裁兼COO Krishna Subramanian以及CTO Michael Peercy于2014年共同创立。当时,大型企业中出现了数百万级别的文件数量,而如今这一数字已经攀升至数十亿。在超大规模公有云提供商那里,存储桶中的对象数量已达到万亿级别。Komprise通过使用和丰富文件及对象的元数据来发挥其数据管理魔力的一部分。
例如,媒体文件可以添加元数据来描述其内容。在过去几年中,生成式AI的大语言模型需要向量嵌入来执行语义搜索,而这些向量是从非结构化数据的内容中生成的。向量算是一种元数据吗?我们在采访中与Goswami探讨了这些话题。
Blocks & Files:我可以说从数据项生成的Token和向量嵌入都是元数据。您对这个观点有什么看法?
Kumar Goswami:元数据和向量嵌入是互补但相关的。向量嵌入是文件内容的计算机可理解表示("是什么"),而元数据是关于文件的有价值信息,可以远超文件内容本身("为什么"),所以你两者都需要。元数据通常比向量嵌入更简洁,将整个文件内容放入元数据可能效率低下。此外,通过嵌入对所有数据运行AI可能存在数据治理问题。
例如,假设你想要一个聊天机器人根据最新产品功能回答问题,但你希望它只使用面向公众的文档而不是机密内部文档,你应该使用元数据来排除内部文档和非最终版本,只对正确的文件运行向量嵌入和AI。我们专注于收集和全局管理元数据来丰富、告知和缩小数据范围,而不是捕获可以从中收集到的所有信息。
我们希望赋能其他工具和流程来整体消费和处理数据。例如,你可以通过使用Komprise来筛选输入到Nvidia NeMo进行嵌入和推理的文件,从而实施AI数据治理并提高AI数据质量。
Blocks & Files:Komprise表示新工具可以自动分析文件内容并大规模生成语义标签。什么是语义标签?它们是从文件内容生成的元数据吗?如果是,那么这些语义标签与向量嵌入有何不同?
Kumar Goswami:向量嵌入用于帮助AI理解上下文中单词的含义,而元数据为哪些文件相关提供语义上下文。例如,向量嵌入可能帮助AI理解研究资助论文上下文中的"奖励"一词意味着获得资助奖励而不是赢得奖杯。元数据可用于筛选和整理特定研究人员在特定时间框架内与特定研究主题相关的所有文档,以发送给帮助撰写资助申请的AI智能体。你可以说两者都是语义上下文,但用于不同目的,而且元数据比文件本身包含的内容更广泛。
Blocks & Files:存在哪些自动查找和分析元数据的工具?
Kumar Goswami:你不仅需要跨不同存储和云环境索引元数据,还需要大规模地对其采取行动。Komprise两者都能做到,因为我们的分析将系统元数据和扩展元数据(如敏感数据信息)提取到全局文件索引中。无论数据位于何处,该索引都保留知识,且不会更改原始文件。Komprise Deep Analytics帮助你基于此索引查询和过滤数据,Komprise Smart Data Workflows允许你搜索并向正确的AI流程提供正确的数据,并将其输出保留为额外的元数据。
这就是元数据和AI的巧妙之处:它不是像传统ETL那样的一次性过程。相反,你需要一个持续的工作流解决方案来找到正确的数据,将其传送到正确的计算资源,在本地或云端运行计算,然后重复此过程。我们的客户使用Komprise已经索引和调动了超过一个艾字节的数据。你可以在Komprise工作流中使用任何AI或向量嵌入或处理器来进一步丰富数据的元数据。Duquesne大学是一个很好的客户案例。
Blocks & Files:现在有哪些AI工具可以提取文件中隐藏的相关信息并将其转化为有用的元数据,从而增加结构和上下文?这种合成是如何进行的?
Kumar Goswami:任何查看文件内容并生成输出的工具都可以通过API在Komprise中使用来丰富元数据。你可以使用基于云的服务,如Azure AI Speech来检查音频或Salesforce Einstein来在CRM中查找特定采购订单,然后让Komprise标记文件。这就是迭代工作流的美妙之处。一旦你有了管理工作流的系统方法,就可以使用任何流程或工具来提炼相关元数据。
Blocks & Files:我了解Komprise认为来自存储系统的自动元数据虽然对基本操作有用,但只是战略元数据管理程序的开始。真正的商业价值来自于用精确定义数据的元数据来丰富这个基础,使其能够轻松搜索并根据需要移动到AI工具或其他位置。什么元数据丰富了来自存储系统的自动元数据?它是如何生成的?如何存储和索引?
Kumar Goswami:有许多类型的附加元数据,下面显示了其中一些。你可以让用户基于他们的知识手动应用附加标签。而且,正如我们在之前的回答中解释的那样,你可以基于其他流程的工件系统性地自动化大规模应用标签。丰富的元数据成为非结构化数据管理系统存储和索引的数据的一部分。这样的系统必须能够处理数十亿个元数据标签的规模,并在数据生存和移动的任何地方持久化这些标签,才能有效。Komprise今天就能做到这一点。
上下文元数据:项目标识符、地理标签、部门关联和业务上下文,这些提供了超越技术属性的意义。部分信息可以从应用程序中提取,部分从文件头中提取,部分通过相关应用程序的API提取(如从CRM系统获取提案的账户标识符)。
敏感性元数据:PII、知识产权、受监管数据类型和安全分类。这需要专门的工具来发现和分类,因为它涉及分析文件内容而不仅仅是属性。
基于用户的元数据:手动标签、协作注释和众包洞察,为数据分类添加人类智能。虽然强大,但随着数据量爆炸式增长,这种方法面临可扩展性挑战。
AI生成的元数据:最新和最具变革性的类别。AI分析文件内容并自动大规模生成上下文标签和分类洞察。
Blocks & Files:Komprise如何基于商业价值、访问模式和项目需求自动识别和分类数据?这样,你就可以在正确的时间将数据存储在正确的位置,而不会浪费宝贵的资源。
Kumar Goswami:Komprise在产品中提供敏感数据的自动识别,无论是PII还是自定义查询的关键词/正则表达式搜索。我们可以与任何第三方AI工具合作,扫描不同的数据类型,用部门用户和数据科学家项目需要的标签唯一标识数据内容。无论AI是在本地还是在云端运行,筛选并向AI提供正确的数据都非常重要,有三个关键原因:a)跨环境复制大量不必要的数据可能成本很高,b)你不想在不相关的数据上运行昂贵的AI计算或在未更改的数据上重复运行,c)但最重要的是,向AI提供错误的数据可能造成数据泄露和不准确的结果。
对于AI,多并不总是更好。Komprise使用策略驱动的工作流来管理整个生命周期,从搜索正确的数据、将其移动到正确的位置、提取相关输出作为元数据标签,然后在完成后删除或分层存储数据。我们的自动化可以在新数据到达时自动执行这些操作,消除了正确调整AI规模的手动开销。我们的客户发现,使用Komprise可以将AI存储和计算成本削减85%或更多。
Blocks & Files:Komprise如何帮助数据科学家快速发现相关数据集、了解数据血缘并确保符合治理要求?
Kumar Goswami:我们在上面通过元数据丰富实现快速搜索和精确数据集策划已经涵盖了第一点。当Komprise将数据移动到AI时,它维护了发送了哪些信息的审计,并跟踪数据移动到哪里以及来自哪里的血缘。公司可以获得用于数据治理目的的审计跟踪。越来越多的数据治理不仅是为了遵守政府法规,也是防止企业信息数据泄露的企业优先事项。
Komprise还提供敏感数据检测和缓解、孤立和重复数据搜索及删除,以及为不同用例自动化数据管理策略的能力,例如将冷数据分层到不可变存储以防止勒索软件保护,或确保必须遵守HIPAA和GDPR等法规的数据得到适当存储和保护。设置Deep Analytics查询来识别这些受保护的数据集(PII、PHI),如果它们没有得到适当处理就自动对其采取行动,通过限制它们、将它们发送到合规存储并按照法规要求时间线删除它们,这只是两个例子。
Blocks & Files:Komprise表示组织需要快速识别并保护其最关键的数据资产免受勒索软件攻击。Komprise如何帮助他们识别最关键的数据资产?"最关键"意味着什么?
Kumar Goswami:大多数组织很难保护非结构化数据免受勒索软件攻击,因为保留PB级数据的多个副本可能成本高昂。因此,我们帮助客户通过将冷数据分层到不可变存储来合理调整勒索软件防御规模,在那里以成本的一小部分受到保护,同时使他们能够对活跃的、因此更具商业关键性的数据使用更积极的勒索软件防御和恢复。
Blocks & Files:Komprise表示通过"PII"和其他关键词的元数据标记进行敏感数据检测有助于找到可能存储在不合规位置的受保护数据,并正确保护其免受网络攻击。Komprise能自动化这个过程吗?
Kumar Goswami:是的!你可以选择要搜索的文件共享和目录,然后Komprise将扫描它们以查找任何PII数据,如姓名、出生日期、用户ID、驾驶执照、社会保障号、信用卡号、地址。你还可以使用正则表达式/关键词搜索来查找IP数据或其他被认为对你的组织敏感但不符合任何标准定义的数据,这可能包括员工ID、患者ID等。然后你可以使用Smart Data Workflow采取额外行动,例如限制数据集进行手动审查以进行法律保留或删除,和/或自动将它们移动到安全存储。
Blocks & Files:Komprise表示能够跨供应商扫描文件共享并自动标记敏感数据类型以采取适当行动是一个游戏规则改变者。数据经常被复制和/或移动到基于策略和法规没有得到充分保护的位置。Komprise如何在这里提供帮助?通过自动化流程并使其策略驱动?
Kumar Goswami:是的,我相信我们已经回答了这个问题。IT可以将此设置为自动化策略,每天、每周或按任何所需频率运行。存储领导者担心敏感数据潜伏在不应该存在的地方并意外暴露给AI的风险。Komprise帮助他们识别和缓解这种风险。
注释:你可以在这里下载Komprise技术概述。
好文章,需要你的鼓励
铠侠正在测试最新的UFS v4.1嵌入式闪存芯片,专为智能手机和平板电脑设计,可提供更快的下载速度和更流畅的设备端AI应用性能。该芯片采用218层TLC 3D NAND技术,提供256GB、512GB和1TB容量选择。相比v4.0产品,随机写入性能提升约30%,随机读取性能提升35-45%,同时功耗效率改善15-20%。新标准还增加了主机发起碎片整理、增强异常处理等功能特性。
上海AI实验室团队提出创新的异步拍摄方案,仅用普通相机就能实现高速4D重建。该方法通过错开相机启动时间将有效帧率从25FPS提升至100-200FPS,并结合视频扩散模型修复稀疏视角导致的重建伪影。实验结果显示,新方法在处理快速运动场景时显著优于现有技术,为低成本高质量4D内容创作开辟新路径。
谷歌在伦敦云峰会上发布Firebase Studio更新,新增Gemini命令行界面集成、模型上下文协议支持和"代理模式"。代理模式提供三种AI协作层次:对话式"询问"模式用于头脑风暴,人机协作代理需开发者确认代码变更,以及几乎完全自主的代理模式。尽管谷歌声称已有数百万应用使用该平台,但目前仍需精心设计提示词,非工程师用户还无法直接创建成熟应用。
上海AI实验室联手复旦大学提出了POLAR方法,这是一种革命性的奖励模型训练技术。通过让AI学会识别不同策略间的差异而非死记评分标准,POLAR在多项任务上实现了显著提升,7B参数模型超越72B现有最强基线,为AI对齐问题提供了全新解决思路。