安全工具无法保护它们看不见的东西。当前安全团队面临的最大挑战之一,是敏感信息的暴露风险往往潜藏在所谓的"影子数据"中——这些数据以被遗忘的副本形式,散落在终端设备、共享驱动器、云端文件夹、SaaS工具以及生成式AI的提示词记录里。正因如此,可见性必须成为任何数据安全策略的第一步,而AI可以通过自动扫描、分析和分类来推动这一工作的落地。
根据Palo Alto Networks的研究,超过80%的敏感数据处于安全团队的视野盲区之外。随着工作负载日益分散、云端工具泛滥,以及近年来生成式AI内容的爆炸式增长,这一问题还在持续恶化。大多数IT团队知道这些数据的存在,却缺乏追踪、分类和保护它们的手段,从而在安全、合规与治理层面留下严重的盲点。
这一现象随着企业技术栈的日益复杂而愈发突出。数据归属权变得模糊不清,副本因跨驱动器、附件和供应商门户的协作蔓延而不断增殖。旧有的数据仓库和备份文件可能在几乎被遗忘的情况下在线存放多年,而当离职员工账号未被妥善注销时,敏感数据同样会持续留存。
以下是常见的影子数据来源:
云存储容器,例如个人或非托管的Dropbox、OneDrive账号,以及过往项目遗留下来的废弃S3存储桶。
SaaS间的数据传输,即员工将授权应用连接至未经授权的第三方工具或API时产生的数据流转。
日志文件与元数据,通常用于故障排查,但可能在无意间以明文形式记录个人身份信息等敏感内容。
通信与协作产物,例如会议录像或旧版邮件归档,这些内容往往被保存在员工个人笔记本电脑的本地存储中,而非安全服务器上。
影子AI数据,包括存储于第三方工具和个人账号中的生成式AI提示词、输出内容、附件及对话历史记录。
在上述大多数情形中,相关数据属于非结构化数据,这使得传统分析工具难以对其进行追踪和治理。此外,这类数据往往在混合环境中以极快的速度大量增长,且缺乏任何数据防泄漏机制作为保障。
传统数据发现工具诞生于一个特定时代——那时大多数企业数据具有已知规律的结构化特征,存储于本地数据中心或受到严密监控的云环境中。这些工具依赖人工标记、元数据和查询来发现并分类敏感数据。由于主要基于关键词搜索,它们在发现和理解非结构化数据(尤其是非文本内容)方面效果有限。
在当今规模下——64%的企业管理的数据量已超过1拍字节——这种方式已难以为继,自动化扫描与分析已成为实现全面数据保护的必要手段。AI进一步提升了企业应对影子数据问题的能力。现代数据发现解决方案借助机器学习,不仅能够"阅读"文本、"识别"视觉内容,还能理解其所代表的语义背景。举例而言,一份讨论员工诉求、薪酬决策或纪律处分的内部备忘录,既不具备数据库或日志文件那样的结构,也可能从未被正式归类,但AI驱动的数据发现系统会根据其主题和上下文将其标记为敏感内容。
AI同样大幅减轻了安全团队的工作负担。通过读取每个已连接数据源中的每一个文件并理解其上下文,AI能够构建数据地图,以通俗易懂的语言对数据群组进行聚类和标注,同时为每个文件分配敏感度评分。此外,安全团队无需费力翻查海量数据仓库,而是可以像使用AI聊天机器人或智能体助手一样,用自然语言直接查询数据发现工具。借助全生命周期数据追踪与可读性强的摘要报告,安全团队还能追踪每个文件的归属与用途,优先处理高风险案例,而不至于陷入误报的泥沼之中。
需要明确的是,AI辅助数据发现的目的并非取代人类分析师,而是正面应对规模化挑战。"人在回路"的信任机制依然至关重要,但借助自动化与上下文智能,团队能够更快、更准确地验证发现结果,从而真正掌控影子数据问题。
Q&A
Q1:什么是影子数据?它主要存在于哪些地方?
A:影子数据是指散落在安全团队视野之外的敏感信息副本,通常存在于个人云存储账号、SaaS工具、日志文件、本地保存的会议录像与邮件归档,以及生成式AI的提示词记录和对话历史中。由于这些数据大多是非结构化的,缺乏统一管理,极易成为数据泄露的隐患。
Q2:传统数据发现工具为何难以应对影子数据问题?
A:传统数据发现工具依赖人工标记、元数据和关键词搜索,主要适用于结构化数据和受监控的环境。面对当前企业动辄超过1拍字节的海量非结构化数据,以及分散在混合云环境中的各类文件,传统工具既无法理解语义上下文,也难以实现自动化规模处理,因此存在明显局限。
Q3:AI如何帮助安全团队更有效地管理影子数据?
A:AI通过机器学习自动扫描所有已连接数据源中的文件,理解内容的语义背景,并构建数据地图、分配敏感度评分。安全团队还可以用自然语言查询数据发现工具,快速定位高风险文件。AI并不取代人工判断,而是通过自动化大幅提升团队验证和处理数据的效率与准确性。
好文章,需要你的鼓励
企业AI搜索公司Glean宣布年度经常性收入(ARR)达3亿美元,较15个月前的1亿美元增长三倍。尽管谷歌、微软、OpenAI等科技巨头纷纷入局企业AI搜索市场,Glean凭借"上下文图谱"技术深度理解企业业务需求,并帮助客户显著降低AI计算成本。该公司提供按用量计费和混合定价两种模式,客户涵盖Databricks、Reddit、Pinterest及三星等企业。Glean上轮融资后估值达72亿美元。
香港中文大学与MiniMax提出ClaimDiff-RL框架,将图像描述的AI训练从整体打分升级为逐条核查,有效解决了传统方式导致AI"少说保平安"的问题,同时在多项基准测试上超越Gemini-3-Pro-Preview。
杰夫·贝索斯旗下的蓝色起源公司在佛罗里达卡纳维拉尔角进行静态点火测试时,新格伦重型火箭发生爆炸。这是美国历史上最大规模的火箭爆炸之一,也是蓝色起源公司遭遇的最严重失败。所有人员安全,但该事故可能导致新格伦火箭项目长期暂停。此前该火箭已成功完成三次发射,并实现了助推器回收和重复使用。
ParaVT是一个由南洋理工等多校联合提出的并行视频工具调用框架,通过让AI同时分析多段视频并引入PARA-GRPO算法解决训练中的格式崩溃与工具跳过问题,在六项长视频理解测试中平均提升约7.9%。