数据管理公司Komprise正式发布了智能AI数据摄取产品,作为其智能数据工作流摄取引擎的重要组成部分。
Komprise智能数据管理平台提供单一平台解决方案,能够轻松分析、迁移、透明分层和管理混合环境中PB级文件和对象数据的生命周期。该平台利用文件和对象元数据来管理非结构化数据资产,并提供策略驱动的工作流来管理数据放置和可访问性。Komprise表示,系统能自动构建元数据,为企业提供所有文件数据的统一视图,客户"可以通过简单查询精确找到AI用例所需的正确数据"。
最近的Komprise AI数据和企业风险调查发现,IT领导者认为将正确的非结构化数据导入AI系统以及确保适当的AI数据治理是两大主要挑战。
CEO Kumar Goswami表示:"我们的使命是帮助组织理清非结构化数据的混乱状况,通过AI获得最大竞争优势。Komprise智能AI数据摄取是智能数据工作流的最新进展,旨在解决客户高效查找和移动正确数据到AI系统这一关键痛点。"
该公司指出,非结构化数据缺乏组织性,包含大量无关、过时和重复文件。这会降低精确度,使上下文窗口混乱,并增加AI管道的延迟。研究显示,在典型的检索增强生成(RAG)系统中,每增加10,000个非结构化文档,效率就会下降10%,导致准确性降低和结果不佳。无关的非结构化数据浪费昂贵的AI处理资源,推高成本,降低准确性,最终影响投资回报率。
此外还存在敏感数据泄露风险。批量摄取数据可能导致AI工具中意外暴露敏感数据,违反隐私、安全和合规政策。智能AI数据摄取使用过滤器在摄取过程中通过连接器消除来自数据源的低质量和敏感数据。Komprise声称,由于采用大规模并行架构并最小化文件开销,在基准测试中其摄取性能比AWS DataSync数据传输工具提高一倍。
智能AI数据摄取具有敏感数据分类功能,内置个人身份信息(PII)和敏感数据处理能力。它自动维护每个摄取工作流的审计跟踪,用于数据治理和审计,记录谁、什么和何时,以及用于合规报告的数据谱系。
Komprise表示,该工具可以将正确的数据摄取到Nvidia GPUDirect和NeMo数据存储中进行AI模型训练或推理,并在计算密集型处理完成后将数据移出。本质上,Komprise提供了一种将数据摄取到AI就绪存储中并进行生命周期管理的方式。
Q&A
Q1:Komprise智能AI数据摄取工具主要解决什么问题?
A:主要解决非结构化数据混乱无序的问题。非结构化数据包含大量无关、过时和重复文件,会降低AI系统精确度,增加处理延迟,浪费昂贵的AI处理资源。该工具通过过滤器消除低质量和敏感数据,帮助企业精准找到AI所需的正确数据。
Q2:为什么非结构化数据会影响AI系统性能?
A:研究显示,在检索增强生成系统中,每增加10,000个非结构化文档,效率就会下降10%。无关数据会使上下文窗口混乱,增加AI管道延迟,降低准确性,导致结果不佳,同时浪费昂贵的AI处理资源,推高成本。
Q3:Komprise工具在数据安全方面有什么保障?
A:该工具具有敏感数据分类功能,内置个人身份信息和敏感数据处理能力,可防止批量摄取时意外暴露敏感数据。同时自动维护每个摄取工作流的审计跟踪,记录详细的操作信息和数据谱系,确保符合隐私、安全和合规政策要求。
好文章,需要你的鼓励
Replit与RevenueCat达成合作,将订阅变现工具直接集成至Replit平台。用户只需通过自然语言提示(如"添加订阅"),即可完成应用内购和订阅配置,无需离开平台。RevenueCat管理超8万款应用的订阅业务,每月处理约10亿美元交易。此次合作旨在让"氛围编程"用户在构建应用的同时即可实现商业变现,月收入未达2500美元前免费使用,超出后收取1%费用。
LiVER是由北京大学、北京邮电大学等机构联合提出的视频生成框架,核心创新是将物理渲染技术与AI视频生成结合,通过Blender引擎计算漫反射、粗糙GGX和光泽GGX三种光照图像构成"场景代理",引导视频扩散模型生成光影物理准确的视频。框架包含渲染器智能体、轻量化编码器适配器和三阶段训练策略,支持对光照、场景布局和摄像机轨迹的独立精确控制。配套构建的LiVERSet数据集含约11000段标注视频,实验显示该方法在视频质量和控制精度上均优于现有方法。
所有人都说AI需要护栏,但真正在构建它的人寥寥无几。SkipLabs创始人Julien Verlaguet深耕这一问题已逾一年,他发现市面上多数"护栏"不过是提示词包装。为此,他打造了专为后端服务设计的AI编程智能体Skipper,基于健全的TypeScript类型系统与响应式运行时,实现增量式代码生成与测试,内部基准测试通过率超90%。他认为,编程语言的"人类可读性时代"正走向终结,面向智能体的精确工具链才是未来。
这项由蒙特利尔学习算法研究所(Mila)与麦吉尔大学联合发布的研究(arXiv:2604.07776,2026年4月)提出了AGENT-AS-ANNOTATORS框架,通过模仿人类数据标注的三种角色分工,系统化生成高质量网页智能体训练轨迹。以Gemini 3 Pro为教师模型,仅用2322条精选轨迹对90亿参数的Qwen3.5-9B模型进行监督微调,在WebArena基准上达到41.5%成功率,超越GPT-4o和Claude 3.5 Sonnet,并在从未见过的企业平台WorkArena L1上提升18.2个百分点,验证了"数据质量远比数量重要"这一核心结论。