数据管理公司Komprise正式发布了智能AI数据摄取产品,作为其智能数据工作流摄取引擎的重要组成部分。
Komprise智能数据管理平台提供单一平台解决方案,能够轻松分析、迁移、透明分层和管理混合环境中PB级文件和对象数据的生命周期。该平台利用文件和对象元数据来管理非结构化数据资产,并提供策略驱动的工作流来管理数据放置和可访问性。Komprise表示,系统能自动构建元数据,为企业提供所有文件数据的统一视图,客户"可以通过简单查询精确找到AI用例所需的正确数据"。
最近的Komprise AI数据和企业风险调查发现,IT领导者认为将正确的非结构化数据导入AI系统以及确保适当的AI数据治理是两大主要挑战。
CEO Kumar Goswami表示:"我们的使命是帮助组织理清非结构化数据的混乱状况,通过AI获得最大竞争优势。Komprise智能AI数据摄取是智能数据工作流的最新进展,旨在解决客户高效查找和移动正确数据到AI系统这一关键痛点。"
该公司指出,非结构化数据缺乏组织性,包含大量无关、过时和重复文件。这会降低精确度,使上下文窗口混乱,并增加AI管道的延迟。研究显示,在典型的检索增强生成(RAG)系统中,每增加10,000个非结构化文档,效率就会下降10%,导致准确性降低和结果不佳。无关的非结构化数据浪费昂贵的AI处理资源,推高成本,降低准确性,最终影响投资回报率。
此外还存在敏感数据泄露风险。批量摄取数据可能导致AI工具中意外暴露敏感数据,违反隐私、安全和合规政策。智能AI数据摄取使用过滤器在摄取过程中通过连接器消除来自数据源的低质量和敏感数据。Komprise声称,由于采用大规模并行架构并最小化文件开销,在基准测试中其摄取性能比AWS DataSync数据传输工具提高一倍。
智能AI数据摄取具有敏感数据分类功能,内置个人身份信息(PII)和敏感数据处理能力。它自动维护每个摄取工作流的审计跟踪,用于数据治理和审计,记录谁、什么和何时,以及用于合规报告的数据谱系。
Komprise表示,该工具可以将正确的数据摄取到Nvidia GPUDirect和NeMo数据存储中进行AI模型训练或推理,并在计算密集型处理完成后将数据移出。本质上,Komprise提供了一种将数据摄取到AI就绪存储中并进行生命周期管理的方式。
Q&A
Q1:Komprise智能AI数据摄取工具主要解决什么问题?
A:主要解决非结构化数据混乱无序的问题。非结构化数据包含大量无关、过时和重复文件,会降低AI系统精确度,增加处理延迟,浪费昂贵的AI处理资源。该工具通过过滤器消除低质量和敏感数据,帮助企业精准找到AI所需的正确数据。
Q2:为什么非结构化数据会影响AI系统性能?
A:研究显示,在检索增强生成系统中,每增加10,000个非结构化文档,效率就会下降10%。无关数据会使上下文窗口混乱,增加AI管道延迟,降低准确性,导致结果不佳,同时浪费昂贵的AI处理资源,推高成本。
Q3:Komprise工具在数据安全方面有什么保障?
A:该工具具有敏感数据分类功能,内置个人身份信息和敏感数据处理能力,可防止批量摄取时意外暴露敏感数据。同时自动维护每个摄取工作流的审计跟踪,记录详细的操作信息和数据谱系,确保符合隐私、安全和合规政策要求。
好文章,需要你的鼓励
Google Photos正向美国Android用户推出会话式编辑功能,用户可通过语音或文字提示来编辑照片,而无需手动操作。该功能首先在Pixel 10手机上推出,现已扩展到更多设备。用户需将Google账户设置为英文,并开启人脸分组和位置估算功能。通过点击"帮我编辑"按钮,用户可直接说出编辑需求,如去除背景中的陌生人、调亮颜色或消除眩光。该功能使用先进的Gemini技术,并提供原图与编辑后照片的对比显示。
字节跳动团队提出RewardDance框架,首次系统性解决视觉生成中的奖励模型扩展问题。该框架通过将奖励预测转为生成式任务,并将模型规模扩展至260亿参数,同时集成任务指令、参考样例和推理能力,有效解决了"奖励作弊"问题。实验显示,在文本生成图像任务中质量提升10.7分,视频生成性能改善49%,达到行业领先水平,为AI视觉创作提供了更强大可靠的技术基础。
本文深入分析了斯坦福大学AI安全中心举办的研讨会所展示的AI安全领域最新进展。文章探讨了AI安全的两个重要方向:构建更安全的AI和让AI变得更安全,强调这两种方法需要有机结合。通过分析物理AI(如人形机器人)与生成式AI结合的安全挑战,以及可达性分析在AI安全中的应用,展现了当前AI安全研究的前沿技术和实际应用场景。
ByteDance团队开发的Mini-o3系统通过深度多轮推理突破了传统AI视觉理解的局限。该系统能像人类侦探般进行几十轮的视觉探索,在困难的视觉搜索任务上准确率达48%,相比现有模型提升显著。核心创新包括挑战性的Visual Probe数据集、多样化推理策略训练和突破性的过轮掩码技术,实现了测试时思考轮数的自然扩展。