数据孤岛在数据分析热潮之前就一直困扰着各个组织。遗憾的是,数据孤岛在许多组织中仍然是一个问题,这使得 AI 输出的可靠性受到质疑。
数据分析平台提供商 KNIME 的 CEO 兼联合创始人 Michael Berthold 表示:"数据孤岛使得智能体很难基于某个关注对象 (如客户、员工或单个用户) 的数据全貌获得统一的洞察。例如,智能体在处理孤立的数据源时会遇到困难,就像一个人必须先查看 CRM 系统了解公司信息和当前合同历史,然后去支持系统了解正在进行的技术问题,还要检查在线论坛看看客户的员工是否在那里发布了什么内容。"
根据 Gartner 最近的一项调查,63% 的组织要么没有,要么不确定是否拥有适合 AI 的正确数据管理实践。事实上,Gartner 预测到 2026 年,组织将放弃 60% 缺乏 AI 就绪数据支持的 AI 项目。
数据孤岛如何形成以及应对方法
工具供应商正试图通过提供与其他工具的集成来简化系统之间的数据流。同样,智能体也将受益于拥有一个统一的地方来获取客户信息。
Michael Berthold 说:"在理想世界中,所有数据都应该是集成的。这是多年前数据仓库的承诺,现在仍在承诺。特别是那些拥有更多遗留数据和系统的公司将继续存在数据孤岛。"
AI 模型需要高质量的数据才能发挥最佳性能。数据和 AI 解决方案提供商 SAS 的数据管理研发高级总监 Gordon Robinson 表示,糟糕的数据会导致模型性能不佳,可能会让组织损失数千万美元或更多。
Robinson 说:"跨孤岛的数据不一致意味着组织的不同部门可能独立追踪相似的数据,导致差异并缺乏单一事实来源。数据孤岛还会导致 AI 模型训练不完整。当 AI 模型在碎片化数据而不是完整数据集上训练时,它们就无法发挥全部潜力并提供最佳洞察。"
AI 驱动的网络安全自动化平台 Blink Ops 的销售工程师 Josh Weinick 曾见过聊天机器人因无法访问存储在其他部门独立系统中的销售或产品数据而无法提供准确客户支持的案例。
"大多数孤岛是由遗留基础设施、组织文化和不一致的数据标准混合造成的。当团队固守自己的系统和定义,或者当旧技术无法与现代 AI 平台很好地集成时,孤岛很容易形成,"Weinick 说,"并购也可能起作用。新收购的业务部门通常会带来自己的技术栈,除非领导层优先考虑集成,否则这些技术栈会保持孤立。"
如果没有领导层的支持和数据共享文化,各部门往往会守护自己的数据。
企业数据可观察性公司 Acceldata 的联合创始人兼 CTO Ashwin Rajeeva 表示,数据孤岛限制了 AI 对完整、高质量数据的访问,这导致了有偏见的模型、不一致的洞察和不可靠的自动化。
"碎片化的数据集使 AI 智能体难以理解上下文,降低了它们在决策和业务影响方面的效果,"Rajeeva 说,"消除孤岛对于 AI 的扩展、提高效率和产生有意义的企业价值至关重要。"
数据访问问题的根本原因是遗留基础设施、多云环境、分散的数据所有权和薄弱的治理。
"以数据为先的 AI 战略应该关注治理、互操作性和可观察性。企业应该实施自动化的数据质量检查、实时监控和血缘追踪,以确保 AI 模型运行在准确、一致的数据上。将数据战略与业务目标对齐并促进跨职能协作可以加速 AI 的采用和影响,"Rajeeva 说。
SAP 的高级经理 Gokul Naidu 表示,孤岛可能导致模型训练出现差距,可能需要手动整合或跨团队请求。
"当信息最终合并时,它可能已经过时,这会减慢 AI 驱动优化的反馈循环,降低潜在的投资回报率,"Naidu 说,"当我戴上 FinOps 的帽子时,我看到孤岛模糊了单位经济价值,比如每笔交易成本、每个用户成本,并限制了衡量每个服务或功能对整体业务价值贡献的能力。"
在他看来,对共享的文化抵制、缺乏标准和治理、遗留应用程序和技术债务都导致了数据碎片化,使得建立统一的数据战略变得困难。要克服这些问题,他建议采取相反的做法,即促进共享文化、制定统一的数据战略,并使用自动化和可观察性。
IT 系统数据服务提供商 The Data Group 的 CEO Paul Graeve 指出了 SaaS 系统的问题。具体来说,组织没有投入必要的时间、精力和资金将 SaaS 数据加载到数据仓库中,在那里组织可以拥有数据、清理数据并有效地将数据用于任何重要的业务计划。
"你的数据被锁在分散在全球各地的所有这些 SaaS 平台中。考虑到数据是你最有价值的资产,这可能会令人担忧,"Graeve 说,"你能够有效且高效地将数据用于 AI、分析、门户网站或任何计划的唯一方法是将所有数据整合到一个真实版本的数据仓库中。在你将数据放在一个可以查看、修复、丰富和高效使用的地方之前,你将很难成功实施任何 AI 计划。"
TEKsystems Global Services 的业务现代化服务总监 Armando Franco 表示,数据孤岛限制了对全面训练数据的访问,降低了模型准确性,并由于冲突的治理和重复而引入不一致性。它们还在自动化和决策方面造成效率低下,因为 AI 智能体需要实时访问统一的数据。此外,碎片化的数据带来安全和合规风险,如果治理不当可能导致违反法规。
"这些挑战源于过时的 IT 基础设施、业务部门碎片化和缺乏统一的数据战略,"Franco 说,"遗留系统不是为互操作性而设计的,而不同部门使用专门的工具造成了集成障碍。没有集中治理,企业在数据管理方面存在不一致,而孤立的 AI 计划导致重复工作和冲突的模型输出。解决这些问题需要现代化 IT 系统、促进跨团队协作和实施连贯的数据战略。"
为什么有些企业比其他企业更难应对
一个组织存在的时间越长,就越可能在与数据孤岛作斗争。
"如果一家公司已经存在一段时间,它就会有不同的工具和系统,而统一这一切的行为从一开始就注定失败。更糟糕的是,如果该公司最近几年收购了几家带来自己工具和数据解决方案的公司,"KNIME 的 Berthold 说,"不要幻想等待著名的数据仓库来解决一切。不要试图通过开始复制数据来给问题打补丁,这样只会在一个中心位置创建数据沼泽。"
相反,重要的是要建立一个数据集成、聚合和分析层,让每个人和 AI 智能体都能访问统一视图。Berthold 说,组织应该确保该层中的技术有良好的文档记录,这样未来的同事可以理解其功能并在数据移动或添加新数据源时进行更新。
根据 SAS 的 Robinson 的说法,组织内的数据孤岛经常围绕产品或业务功能形成,因此许多组织仍然难以充分发挥其数据的潜力。
"克服这些挑战的最佳方法是在组织内实施强大的数据治理框架。随着监管要求的增加以及数据泄露频率和成本的上升,强大的数据治理不再是一种选择 —— 而是必需品,"Robinson 说,"成功的数据治理计划始于了解你拥有什么数据,评估其质量并跟踪它在整个组织中的使用方式。"
此外,实体解析等技术可以通过将来自不同孤岛的信息整合到集中存储库中来帮助创建单一、统一的数据视图。然而,许多组织尚未投资于强大的数据治理。同时,随着新的 AI 法规不断发展,AI 治理正成为一个关键焦点。
"有效的 AI 治理必须建立在强大数据治理的坚实基础之上,"Robinson 说,"如果你还没有投资数据治理,或者你当前的平台缺乏稳健性,这应该是你的首要任务。这不再是可选的。对于当今任何数据驱动的组织来说,这都是一个基本必需品。"
除此之外,Blink Ops 的 Weinick 说,组织应该准备投资现代数据集成和元数据管理,并从一开始就建立强大的安全和治理框架,这样对合规或违规的担忧就不会造成巨大的延误。
"最重要的是,要专注于培养跨职能思维,"Weinick 说,"通过将两个孤立的数据集整合在一起来解决紧迫的业务问题,展示快速胜利,然后在整个企业中庆祝和扩大这些成功。"
好文章,需要你的鼓励
zip2zip是一项创新技术,通过引入动态自适应词汇表,让大语言模型在推理时能够自动组合常用词组,显著提高处理效率。由EPFL等机构研究团队开发的这一方法,基于LZW压缩算法,允许模型即时创建和使用"超级tokens",将输入和输出序列长度减少20-60%,大幅提升推理速度。实验表明,现有模型只需10个GPU小时的微调即可适配此框架,在保持基本性能的同时显著降低计算成本和响应时间,特别适用于专业领域和多语言场景。
这项研究创新性地利用大语言模型(LLM)代替人类标注者,创建了PARADEHATE数据集,用于仇恨言论的无毒化转换。研究团队首先验证LLM在无毒化任务中表现可与人类媲美,随后构建了包含8000多对仇恨/非仇恨文本的平行数据集。评估显示,在PARADEHATE上微调的模型如BART在风格准确性、内容保留和流畅性方面表现优异,证明LLM生成的数据可作为人工标注的高效替代方案,为创建更安全、更具包容性的在线环境提供了新途径。
这项研究由中国科学技术大学的研究团队提出了Pro3D-Editor,一种新型3D编辑框架,通过"渐进式视角"范式解决了现有3D编辑方法中的视角不一致问题。传统方法要么随机选择视角迭代编辑,要么同时编辑多个固定视角,都忽视了不同编辑任务对应不同的"编辑显著性视角"。Pro3D-Editor包含三个核心模块:主视角采样器自动选择最适合编辑的视角,关键视角渲染器通过创新的MoVE-LoRA技术将编辑信息传递到其他视角,全视角精修器修复并优化最终3D模型。实验证明该方法在编辑质量和准确性方面显著优于现有技术。
这项研究提出了ComposeAnything,一个无需重新训练的框架,可显著提升AI图像生成模型处理复杂空间关系的能力。该技术由INRIA、巴黎高师和CNRS的研究团队开发,通过三个创新步骤工作:首先利用大型语言模型创建包含深度信息的2.5D语义布局,然后生成粗略的场景合成图作为先验指导,最后通过物体先验强化和空间控制去噪引导扩散过程。在T2I-CompBench和NSR-1K基准测试中,该方法远超现有技术,特别是在处理复杂空间关系和多物体场景时表现卓越,为AI辅助创意设计开辟新可能。