Komprise推出AI数据清洗工具处理非结构化数据

数据管理公司Komprise正式发布智能AI摄取产品，作为其智能数据工作流摄取引擎的组成部分。该工具旨在解决非结构化数据混乱问题，通过过滤器消除低质量和敏感数据，具备敏感数据分类功能和内置个人身份信息处理能力。基准测试显示其摄取性能比AWS DataSync高出一倍，可自动维护审计跟踪，支持数据治理和合规报告，有效提升AI系统的数据质量和处理效率。

数据管理公司Komprise正式发布了智能AI数据摄取产品，作为其智能数据工作流摄取引擎的重要组成部分。

Komprise智能数据管理平台提供单一平台解决方案，能够轻松分析、迁移、透明分层和管理混合环境中PB级文件和对象数据的生命周期。该平台利用文件和对象元数据来管理非结构化数据资产，并提供策略驱动的工作流来管理数据放置和可访问性。Komprise表示，系统能自动构建元数据，为企业提供所有文件数据的统一视图，客户"可以通过简单查询精确找到AI用例所需的正确数据"。

最近的Komprise AI数据和企业风险调查发现，IT领导者认为将正确的非结构化数据导入AI系统以及确保适当的AI数据治理是两大主要挑战。

CEO Kumar Goswami表示："我们的使命是帮助组织理清非结构化数据的混乱状况，通过AI获得最大竞争优势。Komprise智能AI数据摄取是智能数据工作流的最新进展，旨在解决客户高效查找和移动正确数据到AI系统这一关键痛点。"

该公司指出，非结构化数据缺乏组织性，包含大量无关、过时和重复文件。这会降低精确度，使上下文窗口混乱，并增加AI管道的延迟。研究显示，在典型的检索增强生成(RAG)系统中，每增加10,000个非结构化文档，效率就会下降10%，导致准确性降低和结果不佳。无关的非结构化数据浪费昂贵的AI处理资源，推高成本，降低准确性，最终影响投资回报率。

此外还存在敏感数据泄露风险。批量摄取数据可能导致AI工具中意外暴露敏感数据，违反隐私、安全和合规政策。智能AI数据摄取使用过滤器在摄取过程中通过连接器消除来自数据源的低质量和敏感数据。Komprise声称，由于采用大规模并行架构并最小化文件开销，在基准测试中其摄取性能比AWS DataSync数据传输工具提高一倍。

智能AI数据摄取具有敏感数据分类功能，内置个人身份信息(PII)和敏感数据处理能力。它自动维护每个摄取工作流的审计跟踪，用于数据治理和审计，记录谁、什么和何时，以及用于合规报告的数据谱系。

Komprise表示，该工具可以将正确的数据摄取到Nvidia GPUDirect和NeMo数据存储中进行AI模型训练或推理，并在计算密集型处理完成后将数据移出。本质上，Komprise提供了一种将数据摄取到AI就绪存储中并进行生命周期管理的方式。

Q&A

Q1：Komprise智能AI数据摄取工具主要解决什么问题？

A：主要解决非结构化数据混乱无序的问题。非结构化数据包含大量无关、过时和重复文件，会降低AI系统精确度，增加处理延迟，浪费昂贵的AI处理资源。该工具通过过滤器消除低质量和敏感数据，帮助企业精准找到AI所需的正确数据。

Q2：为什么非结构化数据会影响AI系统性能？

A：研究显示，在检索增强生成系统中，每增加10,000个非结构化文档，效率就会下降10%。无关数据会使上下文窗口混乱，增加AI管道延迟，降低准确性，导致结果不佳，同时浪费昂贵的AI处理资源，推高成本。

Q3：Komprise工具在数据安全方面有什么保障？

A：该工具具有敏感数据分类功能，内置个人身份信息和敏感数据处理能力，可防止批量摄取时意外暴露敏感数据。同时自动维护每个摄取工作流的审计跟踪，记录详细的操作信息和数据谱系，确保符合隐私、安全和合规政策要求。

来源：BLOCKS & FILES

0赞

好文章，需要你的鼓励

Komprise推出AI数据清洗工具处理非结构化数据

来源：BLOCKS & FILES

2025

09/24

08:33

分享

点赞

为全天候绿电而生，海辰储能发布全球首个原生8小时长时储能解决方案

为AI+而生，海辰储能发布全球首款锂钠协同AIDC全时长储能解决方案

长时储能开启智慧未来：海辰储能生态日全球首发三大新品

Arm 借助融合型 AI 数据中心，重塑计算格局

奥运级别的努力：首席信息官为2026年AI颠覆做准备

Spotify推出AI播放列表功能让用户掌控推荐算法

Adobe押注生成式AI获得回报，年度营收创历史新高

OpenAI与迪士尼达成十亿美元合作协议，米老鼠和漫威角色进入Sora

甲骨文150亿美元数据中心投资导致股价下跌

Spoor鸟类监测AI软件需求飞速增长

制药行业AI数据质量危机：垃圾进垃圾出的隐患

Harness获得2.4亿美元融资，估值达55亿美元，专注自动化AI编码后的开发流程

Alloy为机器人行业带来专业数据管理解决方案

6个MCP服务器让智能体AI赋能IT运维工作

AI项目实施面临的主要挑战与应对策略

Facebook推出AI约会助手提升交友体验

Neo4j支持新图查询标准，助力AI时代数据访问

Google DeepMind升级前沿AI安全框架，防范操控和抗关停风险

新墨西哥州批准1650亿美元AI数据中心项目

英伟达押注英特尔，CUDA护城河扩大，AI工厂重塑数据中心

OpenAI与英伟达千亿美元AI计划：能耗相当于10座核反应堆

DeepMind发布AI安全报告：警示"失调"AI的潜在威胁

如果您非常迫切的想了解IT领域最新产品与技术信息，那么订阅至顶网技术邮件将是您的最佳途径之一

2025 re:Invent ：亚马逊云科技把Agentic AI生态梳理明白了

电子竞技瞬息万变，Team Liquid的“数据+AI”制胜秘籍

中国移动呼和浩特数据中心：只有高效存力先行，AI才能跑出全力

从“支撑工具”到“智能中枢”，AI原生ERP进化

关注官方公众号

关注官方微博

关注官方喜马拉雅

友情链接

业界热点: