旧数据如何拖慢企业AI落地,又该如何应对

在近期举办的Veeam大会上,富达投资和安永的企业AI实践负责人分享了亲身经历:AI部署初期,大量长期被忽视的非结构化历史数据(如SharePoint文件、PDF报告)因AI的强大检索能力突然浮出水面,引发数据安全隐患,迫使企业临时叫停AI推进计划。专家指出,问题根源不在于AI本身,而在于数据治理缺失。建立数据所有权体系、精细化标签管理及完善的AI使用监控机制,是企业AI稳健落地的关键所在。

智能体与生成式 AI 的兴起,让企业员工得以更便捷地获取信息与洞察。然而,有证据表明,这一趋势也可能带来始料未及的问题。在近期一场行业会议上,多位拥有丰富企业AI落地经验的从业者,向正计划全面拥抱AI的专业人士发出了警示。

这些从业者亲历的困境,甚至一度导致部分旨在提升员工生产力的AI项目被迫暂停——管理层需要重新审视那些可能在内部意外曝光的数据。不过,在近期纽约举办的Veeam大会圆桌论坛上,参与讨论的高管们也明确表示,AI本身并非问题的根源。两位演讲者所在的组织都积累了大量数据,其中一家还因此不得不重建数据治理架构。

96%的IT专业人士正在使用AI:七大智能体应用场景与主要落地障碍

富达投资(Fidelity Investments)高级副总裁史蒂夫·麦金太尔(Steve MacIntyre)介绍了他所在公司的遭遇。这家拥有40万名员工的企业,发现大量长期沉睡在SharePoint站点或网络附属存储设备中的数据,在AI工具的加持下突然浮出水面。"这不是AI的问题,"他说,"而是AI的生产力和快速检索能力带来的问题。"

安永(EY)企业技术首席架构师维姆·葛尔登(Wim Geurden)则描述了另一种困境:如何在全球各独立成员机构构成的庞大网络中,厘清数据的归属权。这些数据同样通过AI引擎不断涌现。"当企业级搜索上线后,各种信息开始出现在人们意想不到的地方,"他说。

"安永全球总部本身不拥有任何数据,每家成员机构各自持有本地数据。正是在这里,第一批问题冒出来了:这些数据都是什么?有多少个SharePoint站点?我们有数个PB级的数据,整体状态堪称'蛮荒西部',毫无生命周期管理可言,其中一半站点甚至没有责任人,我们根本不知道它们上次是什么时候被访问的。"

51%的专业人士表示AI协作质量低下正在拖累生产力——两步解决这个问题

在富达,问题数据则来自一个庞大的PowerPoint和PDF报告库。"富达保存了数十年的历史研究报告,都是PDF格式,"麦金太尔说,"我们发放了几个Copilot的使用许可,结果仅仅两天后,法务部门就找到我,说我们遇到了AI问题。我的一位团队成员在搜索某样东西时,AI把SharePoint上多年前存档的所有PowerPoint全部翻了出来。"

AI是"一款以极速运转的强大搜索引擎",麦金太尔进一步解释道,"它会立刻搜索所有可访问的内容,并以有意义的方式将结果呈现给我们。所有人都以为这是AI的问题,但它实际上暴露的是数据安全管理的缺失。当我们意识到,那些过去认为无足轻重的海量非结构化数据,随着大语言模型的出现,突然变成了真正的'金矿',这个问题的严重性才真正击中了我们。"

构建真正有价值的智能体AI战略,同时避免业务风险

在安永,当庞大的数据仓库向AI开放之后,首要任务是"找到数据的所有者",葛尔登说,"接下来我们做的第二件事,是关闭所有权限。"用户只有在获得授权许可的情况下,才能使用Copilot工具。

数据归属验证流程还包括对全企业范围内的数据进行识别与标注,葛尔登补充说,例如将数据标记为"机密"或"金融服务"等类别。

他指出,AI本身也可以辅助完成非结构化数据的标注工作——这尤为必要,因为在25%的年度人员流动率面前,依赖人工标注并不现实。

然而,标注工作不能止步于粗粒度的高层级标签。"首先,我们必须知道AI运行时数据的状态,"葛尔登说,"我们需要完整的历史记录与版本信息。"在此基础上,"我们还需要远远超越'机密信息'这一层面的标注,涵盖地理限制标签、业务线标签,并与合同条款关联——因为我们获取了大量客户数据,而这些合同明确规定了我们能做什么、不能做什么。"

他补充说,所有这些元数据都必须被编入合同条款:"那是相对容易的部分。之后,我们还需要将其转化为具体的技术架构——而这,目前仍然极为繁琐。"

超过80%的美国政府机构已在使用AI智能体,而这仅仅是开始

两位高管都强调,治理是AI落地各个层面取得成功的核心关键。"我们必须了解数据正在被如何使用,"麦金太尔说。

"这进而引出了影子AI、影子IT等一系列问题,并最终追溯到端点数据层面。我们必须确保资产清单的准确性,确认这些资产与已注册和批准的使用场景相匹配。这样,我们至少能够知道——如果某人正在做某件事,他就应该使用Claude,因为该工具已与某个经审批的项目绑定。"

以下这4种关键AI漏洞正在被加速利用,防御者应接不暇

麦金太尔进一步说道:"接下来,我们需要思考,希望让这些智能体在什么样的安全环境中运行?希望它们如何与基础模型交互?应该建立什么样的架构,将所有活动汇聚到一个能为我们提供正确可见性和遥测数据的地方,从而监测AI智能体和应用程序的行为是否符合预期?或者发现异常行为?"

麦金太尔还提出了另一项挑战——也许是当下所有数字化领导者面临的最棘手难题之一——如何确立智能体的身份认证:"如何为一个智能体赋予身份?它在某种意义上就成了一名员工。但如果一个智能体的生命周期只有短短数秒,又该怎么办?这是一个真正有趣的难题,我认为目前还没有人给出真正完善的解决方案。"

Q&A

Q1:企业AI落地时,旧数据为什么会成为障碍?

A:在AI部署过程中,企业多年积累的非结构化旧数据(如SharePoint上的PPT、PDF文件)会被AI快速检索并呈现出来,导致本应受限的敏感信息意外暴露。富达投资的案例显示,员工使用Copilot进行搜索时,AI将多年前的内部文件全部翻了出来,引发法务部门的紧急介入。这并非AI本身的漏洞,而是长期缺乏数据生命周期管理所积累的历史问题被AI放大的结果。

Q2:安永是如何处理AI落地时的数据治理问题的?

A:安永在AI落地初期发现数据归属混乱后,采取了两步措施:一是关闭所有权限,只向持有许可证的用户开放Copilot;二是对企业内全部数据进行系统性识别与分类标注,标签涵盖"机密""金融服务"等类别,并进一步延伸至地理限制、业务线及合同关联等维度。由于人员流动率高达25%,安永还借助AI辅助完成了大规模非结构化数据的标注工作。

Q3:智能体的身份认证问题为什么难以解决?

A:富达投资高级副总裁麦金太尔指出,智能体身份认证是当前企业数字化管理中最棘手的问题之一。给智能体赋予身份,意味着它在某种程度上等同于一名员工,需要权限管理和行为追踪。但智能体的生命周期可能极短,甚至只存活数秒,传统的身份认证和权限管控机制难以适配这种场景。目前业界尚无公认的成熟解决方案。

来源:ZDNET

0赞

好文章,需要你的鼓励

2026

05/29

15:26

分享

点赞

邮件订阅