Acceldata Inc.(Acceldata 公司)今日宣布在其 xLake Reasoning Engine(xLake 推理引擎)中引入 Adaptive AI Anomaly Detection(自适应 AI 异常检测)功能,该功能可在业务运营受到影响之前自动识别隐藏的、多维度的数据异常。
今年二月推出的 xLake 推理引擎是该公司 Agentic Data Management(代理数据管理)平台的核心组件。它可在超大规模云、数据云和本地系统等多种环境中运行,作为一款具备人工智能感知能力的数据处理引擎,并集成了治理和安全功能。
公司表示,传统的异常检测工具只能识别如销售数据中数字“0”错误放置这样的一维错误。而自适应异常检测则能够发现跨多个数据维度中隐藏的异常,例如一张信用卡账户同时在相隔数百英里的不同地点显示交易记录。
首席执行官 Rohit Choudhary ( pictured ) 表示,随着大语言模型越来越多地采用结构化数据进行训练以确保准确性和验证,这项功能显得尤为重要。
他说:“这意味着回滚非常困难,一旦数据输入后,改变推理方式就变得异常艰难。”
缩小问题范围
他说,由于数据量增长过快,传统的数据质量和验证检查已经无力跟上。“这就要求我们必须将监测重点缩小到能够表明异常的问题上,”他解释道。“存在太多影响行为的相关因素。你不能等到事后才得知问题所在,因此运营效能取决于对热点区域的及时发现。”
Acceldata 表示,XLake 能够同时评估销售、产品 ID、区域和时间等多个属性维度上的异常,并支持客户优先处理高风险数据片段以获得更好的性能。该引擎能够检测出静态规则体系无法捕捉的独特模式,并可在无需人工调优的情况下不断自我适应。
Choudhary 表示:“我们可以自动识别高风险数据片段,并能在您提供的敏感状态或网站中发现异常。”
在诸如欺诈检测等领域,“系统将变得极为先进,因为每一条信息都有其上下文,”Choudhary 说。“你能追踪到的交互越多,就能越快发现问题,从而更迅速地采取行动。”
Acceldata 会收集来自数据、数据管道、基础设施、用户和成本等方面的元数据及监控信号。公司指出,多变量异常检测能够揭示传统工具常常忽略的相互依赖关系。可以配置代理程序以采取诸如预测业务影响、发出合规警告等动作,并可选择自动修复。
根因关联功能将基础设施故障、数据管道中断和数据峰值联系起来,从而锁定根本原因。系统还可以将预算超支与特定工作负载、用户、查询或流程相关联;通过关联用户身份、位置和数据敏感度来检测异常访问模式;将上游数据问题与下游分析关联;以及通过关联处理时间、数据量和资源限制来识别延迟的早期信号。
修复功能的设计充分考虑了人机协作的需求。“我们确保从配置到结果管理全过程中都有人工参与,”Choudhary 说。“代理程序开箱即带一组功能和提示,但我们也赋予您移除或修改这些功能的权利。”
代理数据管理平台将于下月发布。
好文章,需要你的鼓励
苏州大学研究团队提出"语境降噪训练"新方法,通过"综合梯度分数"识别长文本中的关键信息,在训练时强化重要内容、抑制干扰噪音。该技术让80亿参数的开源模型在长文本任务上达到GPT-4o水平,训练效率比传统方法高出40多倍。研究解决了AI处理长文档时容易被无关信息干扰的核心问题,为文档分析、法律研究等应用提供重要突破。
在Cloudera的“价值观”中,企业智能化的根基可以被概括为两个字:“源”与“治”——让数据有源,智能可治。
清华大学团队首次揭示了困扰AI训练领域超过两年的"幽灵故障"根本原因:Flash Attention在BF16精度下训练时会因数字舍入偏差与低秩矩阵结构的交互作用导致训练崩溃。研究团队通过深入分析发现问题源于注意力权重为1时的系统性舍入误差累积,并提出了动态最大值调整的解决方案,成功稳定了训练过程。这项研究不仅解决了实际工程问题,更为分析类似数值稳定性挑战提供了重要方法论。