为AI做好数据和数据文化准备

企业在AI应用中面临执行困难，关键在于数据质量和治理。专家指出，组织应先明确AI要解决的具体业务问题，确保数据质量、一致性和上下文完整。建议建立AI卓越中心，制定明确成功指标，保持人机协作。数据应作为战略资产管理，包括标准化架构、自动化质量检查和建立数据血缘追踪。同时需要建立治理框架防范偏见，通过持续监控和人工干预确保AI系统公平性。

在AI应用方面，理想与执行之间的差距往往难以跨越。企业试图将这项技术融入产品、工作流程和战略中，但美好的初衷常常在数据混乱和缺乏明确计划的日常现实重压下崩溃。

软件开发商Aras的首席技术官Rob McAveney表示："这是我们在合作的全球制造商中最常见的挑战。许多组织认为他们需要AI，但真正的起点应该是明确希望AI支持的决策，并确保背后有正确的数据。"

根据麦肯锡最近的全球调查，近三分之二的领导者表示他们的组织在业务规模化AI应用方面遇到困难。通常，他们无法超越试点项目的测试阶段，这一挑战在较小的组织中更为突出。试点项目往往无法成熟，投资决策变得更难证明合理性。

一个典型问题是数据根本没有为AI做好准备。团队试图在分散的数据源或混乱数据之上构建复杂模型，希望技术能够弥补这些裂痕。

McAveney表示："从我们的角度来看，实现有意义AI成果的最大障碍是数据质量、数据一致性和数据上下文。当数据存在于孤岛中或没有共享标准治理时，AI只会反映这些不一致性，导致不可靠或误导性的结果。"

这个问题几乎影响每个行业。在组织大力投入新AI工具之前，必须首先建立更强的数据治理，执行质量标准，并明确谁真正拥有用于驱动这些系统的数据。

确保AI不会接管主导权

在急于采用AI的过程中，许多组织忘记了询问一个根本问题：实际需要解决什么问题。没有这种清晰认识，很难取得有意义的结果。

VyStar信用联盟的首席技术官Anurag Sharma认为AI只是帮助解决特定业务问题的另一个工具，他说每个倡议都应该从明确、简单的业务成果声明开始。他鼓励团队识别AI可以解决的问题，并敦促高管在任何事情推进之前了解将会发生什么变化以及谁会受到影响。

Sharma表示："首席信息官和首席技术官可以通过坚持这种纪律来保持倡议的务实性，通过放慢对话节奏足够长的时间来区分闪亮的和战略性的。"

当组织拥有AI卓越中心（COE）或专门的工作组来识别真正机会时，这种区别变得更容易。这些团队帮助筛选想法，设定优先级，并确保倡议基于业务需求而非炒作。

该小组还应包括工作将受到AI影响的人员，以及业务领导者、法律和合规专家以及安全团队。他们可以共同定义AI倡议必须满足的基线要求。

安全和治理平台Zenity的AI安全和政策倡导总监Kayla Underkoffler表示："当这些要求预先明确时，团队可以避免追求看起来令人兴奋但缺乏真正业务支撑的AI项目。"

她补充说，COE中的某人应该对当前AI风险环境有扎实的掌握。该人员应该准备好回答关键问题，知道在每个倡议上线之前需要解决哪些关切。

Underkoffler说："一个计划可能有团队甚至没有意识到的巨大裂痕。从一开始就包含安全性至关重要，以确保防护栏和风险评估可以从一开始就添加，而不是在倡议启动运行后再附加上去。"

此外，应该有明确、可衡量的业务成果来确保努力是值得的。云端质量工程平台LambdaTest公司的DevOps和DevSecOps副总裁Akash Agrawal表示："每个提案必须预先定义成功指标。AI从不被探索，它被应用。"

他建议公司建立定期的30或45天检查点，以确保工作继续与业务目标保持一致。如果结果不符合预期，组织不应犹豫重新评估并做出诚实决定，即使这意味着完全放弃该倡议。

然而，即使技术看起来有前景，人类仍需要保持参与。可持续废物解决方案公司Reworld的首席信息官Shridhar Karale表示："在我们基于AI的潜在客户资格认定的早期试点中，去除人工审查导致了无效的潜在客户分类。我们迅速重新调整模型以包含人工反馈，使其持续改进并随时间变得更准确。"

当在没有人工验证的情况下做出决策时，组织面临基于错误假设或误解模式行动的风险。目标不是替换人员，而是建立人类和机器相互加强的伙伴关系。

数据，一项战略资产

确保数据得到有效管理是使AI按预期工作的一个经常被忽视的先决条件。创造正确条件意味着将数据视为战略资产：组织它、清理它，并制定正确的政策以使其随时间保持可靠。

国际特赦组织首席信息官Paul Smith表示："首席信息官应该专注于数据质量、完整性和相关性。"他的组织每天处理非结构化数据，通常来自外部来源。鉴于工作性质，这些数据的质量可能是可变的。分析师筛选文档、视频、图像和报告，每个都以不同格式和条件产生。管理如此大量的混乱、不一致且往往不完整的信息教会了他们严格性的重要性。

Smith说："没有非结构化数据这回事，只有尚未应用结构的数据。"他还敦促组织从强大的、日常数据治理习惯的基础开始。这意味着检查数据是否相关，确保它是完整、准确和一致的，过时的信息会扭曲结果。

Smith还强调验证数据血缘的重要性。这包括建立出处——知道数据来自哪里以及其使用是否符合法律和道德标准——并审查任何详细说明如何收集或转换的可用文档。

在许多组织中，混乱的数据来自遗留系统或手动录入工作流程。Agrawal表示："我们通过标准化模式、执行数据契约、在摄取时自动化质量检查以及整合工程观察性来加强可靠性。"

当团队信任数据时，他们的AI结果会改善。Sharma补充说："如果你无法清楚回答数据来自哪里以及它有多可信，那么你还没有准备好。预先放慢速度比追求方向错误或操作有害的洞察更好，特别是在信任是我们货币的金融行业。"

Karale说，在Reworld，他们创建了单一真实数据源结构，并为每个领域分配了数据管理员。他们还维护一个活跃的数据字典，使定义和访问政策通过简单搜索就能轻松找到。Karale补充说："每个条目都包含血缘和所有权详细信息，因此每个团队都知道谁负责，他们可以信任所使用的数据。"

组织的深度审视

AI有一种放大它在数据中发现的任何模式的方式——有用的模式，但也包括组织宁愿抛弃的旧偏见。避免这个陷阱始于认识到偏见往往是一个结构性问题。

首席信息官可以做几件事来防止问题扎根。Underkoffler说："审查用于训练或试点运行的所有数据，并在AI进入工作流程之前确认基础控制措施到位。"

同时，尝试详细了解智能体AI如何改变风险模型。她说："这些系统引入了新的自主性、依赖性和交互形式。控制措施必须相应发展。"

Underkoffler还补充说，强大的治理框架可以指导组织进行监控、管理风险和设置防护栏。这些框架概述了谁负责监督AI系统、如何记录决策以及何时必须介入人工判断，在技术发展速度超过大多数政策跟上速度的环境中提供结构。

Karale表示，公平性指标（如不同影响）在这种监督中发挥重要作用。这些措施帮助团队了解AI系统是否公平对待不同群体或无意中偏向一个群体而非另一个。这些指标可以纳入模型验证管道。

领域专家也可以在发现和重新训练产生偏见或偏离目标输出的模型方面发挥关键作用。他们了解数据背后的背景，因此往往是第一个注意到某事看起来不对的人。Karale说："持续学习对机器来说就像对人一样重要。"

国际特赦组织的Smith同意，说组织需要持续培训他们的员工帮助他们识别潜在偏见。他说："提高对风险和危害的意识。防御或风险缓解的第一道防线是人类。"

Q&A

Q1：为什么许多组织的AI项目无法从试点阶段扩展到全业务应用？

A：主要原因包括数据质量差、缺乏明确的业务目标定义，以及数据治理不够完善。许多组织试图在分散、混乱的数据之上构建AI模型，没有预先解决数据一致性和质量问题，导致AI输出不可靠。此外，缺乏清晰的成功指标和定期评估机制也使项目难以证明其商业价值。

Q2：企业应该如何建立有效的AI数据治理体系？

A：首先要将数据视为战略资产，建立统一的数据标准和质量检查流程。建议设立专门的AI卓越中心，包含业务领导者、技术团队、法律合规和安全专家。同时要验证数据血缘，确保数据来源可追踪，建立数据字典明确定义和访问权限，并设置自动化质量检测机制。

Q3：如何防止AI系统出现偏见和不公平结果？

A：需要从多个层面建立防护机制：在数据训练前进行全面审查，建立强大的治理框架明确责任分工，设置公平性指标如不同影响测量来监控AI系统是否公平对待不同群体。同时保持人工监督，让领域专家参与模型验证，并持续培训员工识别潜在偏见。最重要的是确保人类始终在关键决策环节保持参与。

来源：CIO.com

0赞

好文章，需要你的鼓励

为AI做好数据和数据文化准备

来源：CIO.com

2025

12/09

08:20

分享

点赞

数据中心行业面临能源与AI发展的双重挑战

IBM斥资110亿美元收购Confluent强化数据流处理

AI发展的下一个巨大飞跃：世界模型

为AI做好数据和数据文化准备

OpenAI企业版使用量暴增，应对谷歌竞争威胁

Anthropic基于新AI工具开展大规模调查研究

IBM为Db2控制台添加AI功能以推动老牌数据库现代化

FADU对CXL技术投资降温，质疑高带宽闪存发展前景

开源和编排将在2026年定义企业AI领导力

地平线余凯：让10万级的国民汽车，也能用上城区NOA

施耐德电气Galaxy PX UPS：把智算时代的“底层公式”写进0.6平方米

CIO们注意：没有真正培训和领导力，人才将会流失

OpenAI企业版使用量暴增，应对谷歌竞争威胁

Anthropic基于新AI工具开展大规模调查研究

FADU对CXL技术投资降温，质疑高带宽闪存发展前景

开源和编排将在2026年定义企业AI领导力

AWS re:Invent 2025云服务企业级AI智能体技术重大发布会

人工智能的下一个前沿是人脑接口技术

OpenAI计划下周发布GPT-5.2应对谷歌竞争

数据中心安全和设计缺口：被忽视的关键问题

智能体即服务将重塑软件行业和企业结构

谷歌AI模型在伪造手机拍照方面变得异常精准

如果您非常迫切的想了解IT领域最新产品与技术信息，那么订阅至顶网技术邮件将是您的最佳途径之一

电子竞技瞬息万变，Team Liquid的“数据+AI”制胜秘籍

中国移动呼和浩特数据中心：只有高效存力先行，AI才能跑出全力

从“支撑工具”到“智能中枢”，AI原生ERP进化

阿里要用AI将云计算重做一遍

关注官方公众号

关注官方微博

关注官方喜马拉雅

友情链接

业界热点: