数据管理公司Komprise正式发布了智能AI数据摄取产品,作为其智能数据工作流摄取引擎的重要组成部分。
Komprise智能数据管理平台提供单一平台解决方案,能够轻松分析、迁移、透明分层和管理混合环境中PB级文件和对象数据的生命周期。该平台利用文件和对象元数据来管理非结构化数据资产,并提供策略驱动的工作流来管理数据放置和可访问性。Komprise表示,系统能自动构建元数据,为企业提供所有文件数据的统一视图,客户"可以通过简单查询精确找到AI用例所需的正确数据"。
最近的Komprise AI数据和企业风险调查发现,IT领导者认为将正确的非结构化数据导入AI系统以及确保适当的AI数据治理是两大主要挑战。
CEO Kumar Goswami表示:"我们的使命是帮助组织理清非结构化数据的混乱状况,通过AI获得最大竞争优势。Komprise智能AI数据摄取是智能数据工作流的最新进展,旨在解决客户高效查找和移动正确数据到AI系统这一关键痛点。"
该公司指出,非结构化数据缺乏组织性,包含大量无关、过时和重复文件。这会降低精确度,使上下文窗口混乱,并增加AI管道的延迟。研究显示,在典型的检索增强生成(RAG)系统中,每增加10,000个非结构化文档,效率就会下降10%,导致准确性降低和结果不佳。无关的非结构化数据浪费昂贵的AI处理资源,推高成本,降低准确性,最终影响投资回报率。
此外还存在敏感数据泄露风险。批量摄取数据可能导致AI工具中意外暴露敏感数据,违反隐私、安全和合规政策。智能AI数据摄取使用过滤器在摄取过程中通过连接器消除来自数据源的低质量和敏感数据。Komprise声称,由于采用大规模并行架构并最小化文件开销,在基准测试中其摄取性能比AWS DataSync数据传输工具提高一倍。
智能AI数据摄取具有敏感数据分类功能,内置个人身份信息(PII)和敏感数据处理能力。它自动维护每个摄取工作流的审计跟踪,用于数据治理和审计,记录谁、什么和何时,以及用于合规报告的数据谱系。
Komprise表示,该工具可以将正确的数据摄取到Nvidia GPUDirect和NeMo数据存储中进行AI模型训练或推理,并在计算密集型处理完成后将数据移出。本质上,Komprise提供了一种将数据摄取到AI就绪存储中并进行生命周期管理的方式。
Q&A
Q1:Komprise智能AI数据摄取工具主要解决什么问题?
A:主要解决非结构化数据混乱无序的问题。非结构化数据包含大量无关、过时和重复文件,会降低AI系统精确度,增加处理延迟,浪费昂贵的AI处理资源。该工具通过过滤器消除低质量和敏感数据,帮助企业精准找到AI所需的正确数据。
Q2:为什么非结构化数据会影响AI系统性能?
A:研究显示,在检索增强生成系统中,每增加10,000个非结构化文档,效率就会下降10%。无关数据会使上下文窗口混乱,增加AI管道延迟,降低准确性,导致结果不佳,同时浪费昂贵的AI处理资源,推高成本。
Q3:Komprise工具在数据安全方面有什么保障?
A:该工具具有敏感数据分类功能,内置个人身份信息和敏感数据处理能力,可防止批量摄取时意外暴露敏感数据。同时自动维护每个摄取工作流的审计跟踪,记录详细的操作信息和数据谱系,确保符合隐私、安全和合规政策要求。
好文章,需要你的鼓励
穆拉蒂时隔18个月首次接受重大媒体采访,介绍其创立的Thinking Machines Lab正在开发的"交互模型"。该模型能以200毫秒间隔处理音频、文本和视频流,捕捉人类交流中的中断、修正和停顿。她还谈及OpenAI"政变周"经历,强调行业决策权过于集中的担忧,并回应了公司近期研究人员离职问题,表示这是初创实验室的正常波动。
STATE16研究院这篇综述发现,物理AI系统存在"静默失效"风险——AI以高度自信执行基于错误世界信息的动作,却不触发任何报警,并提出在AI输出与物理执行之间建立独立授权层的框架。
本期《Quick Charge》播客涵盖多个热点话题:特斯拉疑似试图删除FSD欺诈相关证据以规避巨额赔付;卡特彼勒持续推进建筑领域电气化布局;住宅太阳能30%税收抵免即将到期。此外,嘉宾Tom Pacheco就高压系统与电池技术培训展开探讨,强调电动车技术人才培养的紧迫性。节目同时提醒有意安装太阳能的用户尽快行动,可通过EnergySage平台比较多家安装商报价。
UIUC与微软联合研发的OpenWebRL框架让4B小模型仅凭400条初始数据,通过在真实网站上边做边学的强化学习方式,在网页智能体基准上超越了用27万条数据训练的竞争对手。