Komprise推出AI数据清洗工具处理非结构化数据

数据管理公司Komprise正式发布智能AI摄取产品，作为其智能数据工作流摄取引擎的组成部分。该工具旨在解决非结构化数据混乱问题，通过过滤器消除低质量和敏感数据，具备敏感数据分类功能和内置个人身份信息处理能力。基准测试显示其摄取性能比AWS DataSync高出一倍，可自动维护审计跟踪，支持数据治理和合规报告，有效提升AI系统的数据质量和处理效率。

数据管理公司Komprise正式发布了智能AI数据摄取产品，作为其智能数据工作流摄取引擎的重要组成部分。

Komprise智能数据管理平台提供单一平台解决方案，能够轻松分析、迁移、透明分层和管理混合环境中PB级文件和对象数据的生命周期。该平台利用文件和对象元数据来管理非结构化数据资产，并提供策略驱动的工作流来管理数据放置和可访问性。Komprise表示，系统能自动构建元数据，为企业提供所有文件数据的统一视图，客户"可以通过简单查询精确找到AI用例所需的正确数据"。

最近的Komprise AI数据和企业风险调查发现，IT领导者认为将正确的非结构化数据导入AI系统以及确保适当的AI数据治理是两大主要挑战。

CEO Kumar Goswami表示："我们的使命是帮助组织理清非结构化数据的混乱状况，通过AI获得最大竞争优势。Komprise智能AI数据摄取是智能数据工作流的最新进展，旨在解决客户高效查找和移动正确数据到AI系统这一关键痛点。"

该公司指出，非结构化数据缺乏组织性，包含大量无关、过时和重复文件。这会降低精确度，使上下文窗口混乱，并增加AI管道的延迟。研究显示，在典型的检索增强生成(RAG)系统中，每增加10,000个非结构化文档，效率就会下降10%，导致准确性降低和结果不佳。无关的非结构化数据浪费昂贵的AI处理资源，推高成本，降低准确性，最终影响投资回报率。

此外还存在敏感数据泄露风险。批量摄取数据可能导致AI工具中意外暴露敏感数据，违反隐私、安全和合规政策。智能AI数据摄取使用过滤器在摄取过程中通过连接器消除来自数据源的低质量和敏感数据。Komprise声称，由于采用大规模并行架构并最小化文件开销，在基准测试中其摄取性能比AWS DataSync数据传输工具提高一倍。

智能AI数据摄取具有敏感数据分类功能，内置个人身份信息(PII)和敏感数据处理能力。它自动维护每个摄取工作流的审计跟踪，用于数据治理和审计，记录谁、什么和何时，以及用于合规报告的数据谱系。

Komprise表示，该工具可以将正确的数据摄取到Nvidia GPUDirect和NeMo数据存储中进行AI模型训练或推理，并在计算密集型处理完成后将数据移出。本质上，Komprise提供了一种将数据摄取到AI就绪存储中并进行生命周期管理的方式。

Q&A

Q1：Komprise智能AI数据摄取工具主要解决什么问题？

A：主要解决非结构化数据混乱无序的问题。非结构化数据包含大量无关、过时和重复文件，会降低AI系统精确度，增加处理延迟，浪费昂贵的AI处理资源。该工具通过过滤器消除低质量和敏感数据，帮助企业精准找到AI所需的正确数据。

Q2：为什么非结构化数据会影响AI系统性能？

A：研究显示，在检索增强生成系统中，每增加10,000个非结构化文档，效率就会下降10%。无关数据会使上下文窗口混乱，增加AI管道延迟，降低准确性，导致结果不佳，同时浪费昂贵的AI处理资源，推高成本。

Q3：Komprise工具在数据安全方面有什么保障？

A：该工具具有敏感数据分类功能，内置个人身份信息和敏感数据处理能力，可防止批量摄取时意外暴露敏感数据。同时自动维护每个摄取工作流的审计跟踪，记录详细的操作信息和数据谱系，确保符合隐私、安全和合规政策要求。

来源：BLOCKS & FILES

0赞

好文章，需要你的鼓励

Komprise推出AI数据清洗工具处理非结构化数据

来源：BLOCKS & FILES

2025

09/24

08:33

分享

点赞

WAIC2026 现场直击：开普勒顶流人气王，麒麟系列火爆出圈

面壁智能将密度定律带入具身智能

龙磁科技拟投3.58亿元扩建越南永磁铁氧体基地

首创一层Scale-up网络256卡全互联，摩尔线程MTT C256超节点为万卡及十万卡级集群夯实底座

从高血压诊疗入手，北京安贞医院让医疗大模型走出聊天框

西门子肖松：以场景为牵引，推动工业AI从单点实效迈向生产力跃迁

打造Token极致性价比 新华三震撼亮相2026世界人工智能大会

机器人管家系统上线！傅利叶携多款康养陪伴新品方案亮相WAIC 2026

赛那德“ 自主作业机器人天团” 登陆 WAIC：iLoabot-X+模型双升级，秀出具身场景落地硬实力

西门子Eigen工程智能体中国首发首展，荣获2026 WAIC SAIL之星奖

NVIDIA Cosmos 推动物理 AI 前沿发展

PPIO亮相WAIC 2026：发布智能模型网关，打造面向Agent时代的智能Token工厂

Alloy为机器人行业带来专业数据管理解决方案

6个MCP服务器让智能体AI赋能IT运维工作

AI项目实施面临的主要挑战与应对策略

Facebook推出AI约会助手提升交友体验

Neo4j支持新图查询标准，助力AI时代数据访问

Google DeepMind升级前沿AI安全框架，防范操控和抗关停风险

新墨西哥州批准1650亿美元AI数据中心项目

英伟达押注英特尔，CUDA护城河扩大，AI工厂重塑数据中心

OpenAI与英伟达千亿美元AI计划：能耗相当于10座核反应堆

DeepMind发布AI安全报告：警示"失调"AI的潜在威胁

如果您非常迫切的想了解IT领域最新产品与技术信息，那么订阅至顶网技术邮件将是您的最佳途径之一

三一集团：数字化是必选项，AI是生存项

因湃电池 × 达索系统：如何共创出一套电池产业最佳实践

AI走进真实世界之后：安全、健康与产业的新命题

CES 2026

关注官方公众号

关注官方微博

关注官方喜马拉雅

友情链接

业界热点:

打造Token极致性价比新华三震撼亮相2026世界人工智能大会