数据管理公司Komprise正式发布了智能AI数据摄取产品,作为其智能数据工作流摄取引擎的重要组成部分。
Komprise智能数据管理平台提供单一平台解决方案,能够轻松分析、迁移、透明分层和管理混合环境中PB级文件和对象数据的生命周期。该平台利用文件和对象元数据来管理非结构化数据资产,并提供策略驱动的工作流来管理数据放置和可访问性。Komprise表示,系统能自动构建元数据,为企业提供所有文件数据的统一视图,客户"可以通过简单查询精确找到AI用例所需的正确数据"。
最近的Komprise AI数据和企业风险调查发现,IT领导者认为将正确的非结构化数据导入AI系统以及确保适当的AI数据治理是两大主要挑战。
CEO Kumar Goswami表示:"我们的使命是帮助组织理清非结构化数据的混乱状况,通过AI获得最大竞争优势。Komprise智能AI数据摄取是智能数据工作流的最新进展,旨在解决客户高效查找和移动正确数据到AI系统这一关键痛点。"
该公司指出,非结构化数据缺乏组织性,包含大量无关、过时和重复文件。这会降低精确度,使上下文窗口混乱,并增加AI管道的延迟。研究显示,在典型的检索增强生成(RAG)系统中,每增加10,000个非结构化文档,效率就会下降10%,导致准确性降低和结果不佳。无关的非结构化数据浪费昂贵的AI处理资源,推高成本,降低准确性,最终影响投资回报率。
此外还存在敏感数据泄露风险。批量摄取数据可能导致AI工具中意外暴露敏感数据,违反隐私、安全和合规政策。智能AI数据摄取使用过滤器在摄取过程中通过连接器消除来自数据源的低质量和敏感数据。Komprise声称,由于采用大规模并行架构并最小化文件开销,在基准测试中其摄取性能比AWS DataSync数据传输工具提高一倍。
智能AI数据摄取具有敏感数据分类功能,内置个人身份信息(PII)和敏感数据处理能力。它自动维护每个摄取工作流的审计跟踪,用于数据治理和审计,记录谁、什么和何时,以及用于合规报告的数据谱系。
Komprise表示,该工具可以将正确的数据摄取到Nvidia GPUDirect和NeMo数据存储中进行AI模型训练或推理,并在计算密集型处理完成后将数据移出。本质上,Komprise提供了一种将数据摄取到AI就绪存储中并进行生命周期管理的方式。
Q&A
Q1:Komprise智能AI数据摄取工具主要解决什么问题?
A:主要解决非结构化数据混乱无序的问题。非结构化数据包含大量无关、过时和重复文件,会降低AI系统精确度,增加处理延迟,浪费昂贵的AI处理资源。该工具通过过滤器消除低质量和敏感数据,帮助企业精准找到AI所需的正确数据。
Q2:为什么非结构化数据会影响AI系统性能?
A:研究显示,在检索增强生成系统中,每增加10,000个非结构化文档,效率就会下降10%。无关数据会使上下文窗口混乱,增加AI管道延迟,降低准确性,导致结果不佳,同时浪费昂贵的AI处理资源,推高成本。
Q3:Komprise工具在数据安全方面有什么保障?
A:该工具具有敏感数据分类功能,内置个人身份信息和敏感数据处理能力,可防止批量摄取时意外暴露敏感数据。同时自动维护每个摄取工作流的审计跟踪,记录详细的操作信息和数据谱系,确保符合隐私、安全和合规政策要求。
好文章,需要你的鼓励
在迪拜Gitex 2025大会上,阿联酋成为全球AI领导者的雄心备受关注。微软正帮助该地区组织从AI实验阶段转向实际应用,通过三重方法提供AI助手、协同AI代理和AI战略顾问。微软已在阿联酋大举投资数据中心,去年培训了10万名政府员工,计划到2027年培训100万学习者。阿联酋任命了全球首位AI部长,各部门都配备了首席AI官。微软与政府机构和企业合作,在公民服务和金融流程等领域实现AI的实际应用,构建全面的AI生态系统。
查尔斯大学和意大利布鲁诺·凯斯勒基金会的研究团队首次系统性解决了同声传译AI系统延迟评估的准确性问题。他们发现现有评估方法存在严重偏差,常给出相互矛盾的结果,并提出了YAAL新指标和SOFTSEGMENTER对齐工具。YAAL准确性达96%,比传统方法提升20多个百分点。研究还开发了专门的长音频评估工具LongYAAL,为AI翻译技术发展提供了可靠的测量标准。
苹果与俄亥俄州立大学研究人员发布名为FS-DFM的新模型,采用少步离散流匹配技术,仅需8轮快速优化即可生成完整长文本,效果媲美需要上千步骤的扩散模型。该模型通过三步训练法:处理不同优化预算、使用教师模型指导、调整迭代机制来实现突破。测试显示,参数量仅1.7亿至17亿的FS-DFM变体在困惑度和熵值指标上均优于70-80亿参数的大型扩散模型。
印度理工学院团队构建了史上最大规模印度文化AI测试基准DRISHTIKON,包含64288道多语言多模态题目,覆盖15种语言和36个地区。研究评估了13个主流AI模型的文化理解能力,发现即使最先进的AI也存在显著文化盲区,特别是在低资源语言和复杂推理任务上表现不佳,为构建文化感知AI提供了重要指导。