数据管理公司Komprise正式发布了智能AI数据摄取产品,作为其智能数据工作流摄取引擎的重要组成部分。
Komprise智能数据管理平台提供单一平台解决方案,能够轻松分析、迁移、透明分层和管理混合环境中PB级文件和对象数据的生命周期。该平台利用文件和对象元数据来管理非结构化数据资产,并提供策略驱动的工作流来管理数据放置和可访问性。Komprise表示,系统能自动构建元数据,为企业提供所有文件数据的统一视图,客户"可以通过简单查询精确找到AI用例所需的正确数据"。
最近的Komprise AI数据和企业风险调查发现,IT领导者认为将正确的非结构化数据导入AI系统以及确保适当的AI数据治理是两大主要挑战。
CEO Kumar Goswami表示:"我们的使命是帮助组织理清非结构化数据的混乱状况,通过AI获得最大竞争优势。Komprise智能AI数据摄取是智能数据工作流的最新进展,旨在解决客户高效查找和移动正确数据到AI系统这一关键痛点。"
该公司指出,非结构化数据缺乏组织性,包含大量无关、过时和重复文件。这会降低精确度,使上下文窗口混乱,并增加AI管道的延迟。研究显示,在典型的检索增强生成(RAG)系统中,每增加10,000个非结构化文档,效率就会下降10%,导致准确性降低和结果不佳。无关的非结构化数据浪费昂贵的AI处理资源,推高成本,降低准确性,最终影响投资回报率。
此外还存在敏感数据泄露风险。批量摄取数据可能导致AI工具中意外暴露敏感数据,违反隐私、安全和合规政策。智能AI数据摄取使用过滤器在摄取过程中通过连接器消除来自数据源的低质量和敏感数据。Komprise声称,由于采用大规模并行架构并最小化文件开销,在基准测试中其摄取性能比AWS DataSync数据传输工具提高一倍。
智能AI数据摄取具有敏感数据分类功能,内置个人身份信息(PII)和敏感数据处理能力。它自动维护每个摄取工作流的审计跟踪,用于数据治理和审计,记录谁、什么和何时,以及用于合规报告的数据谱系。
Komprise表示,该工具可以将正确的数据摄取到Nvidia GPUDirect和NeMo数据存储中进行AI模型训练或推理,并在计算密集型处理完成后将数据移出。本质上,Komprise提供了一种将数据摄取到AI就绪存储中并进行生命周期管理的方式。
Q&A
Q1:Komprise智能AI数据摄取工具主要解决什么问题?
A:主要解决非结构化数据混乱无序的问题。非结构化数据包含大量无关、过时和重复文件,会降低AI系统精确度,增加处理延迟,浪费昂贵的AI处理资源。该工具通过过滤器消除低质量和敏感数据,帮助企业精准找到AI所需的正确数据。
Q2:为什么非结构化数据会影响AI系统性能?
A:研究显示,在检索增强生成系统中,每增加10,000个非结构化文档,效率就会下降10%。无关数据会使上下文窗口混乱,增加AI管道延迟,降低准确性,导致结果不佳,同时浪费昂贵的AI处理资源,推高成本。
Q3:Komprise工具在数据安全方面有什么保障?
A:该工具具有敏感数据分类功能,内置个人身份信息和敏感数据处理能力,可防止批量摄取时意外暴露敏感数据。同时自动维护每个摄取工作流的审计跟踪,记录详细的操作信息和数据谱系,确保符合隐私、安全和合规政策要求。
好文章,需要你的鼓励
VSCO今日更新VSCO Capture应用,新增视频拍摄功能。用户现可在拍摄照片和视频时应用并调整VSCO的50多种滤镜预设,包括经典胶片到现代创作风格。新版本还推出胶片颗粒滤镜,可动态控制纹理强度、大小和色彩。用户能将颗粒滤镜叠加到Film X滤镜上,结合柯达、富士和爱克发胶片风格,保存个性化胶片配方。
瑞士ETH苏黎世联邦理工学院等机构联合开发的WUSH技术,首次从数学理论层面推导出AI大模型量化压缩的最优解。该技术能根据数据特征自适应调整压缩策略,相比传统方法减少60-70%的压缩损失,实现接近零损失的模型压缩,为大模型在普通设备上的高效部署开辟了新路径。
Instagram负责人Adam Mosseri表示,AI生成内容已经占据社交媒体主导地位,预计将超越非AI内容。他认为识别AI内容的技术效果不佳,建议转而为真实媒体建立指纹识别系统,由相机制造商在拍摄时进行加密签名。Mosseri还指出,创作者应优先发布"不完美"的原始图像来证明真实性,因为精美方形图片的时代已经结束。
弗吉尼亚大学团队创建了Refer360数据集,这是首个大规模记录真实环境中人机多模态交互的数据库,涵盖室内外场景,包含1400万交互样本。同时开发的MuRes智能模块能让机器人像人类一样理解语言、手势和眼神的组合信息,显著提升了现有AI模型的理解准确度,为未来智能机器人的广泛应用奠定了重要基础。