没有强大的数据安全保障,公司无法充分发挥数据的价值。随着数据泄露事件逐年增多,每家公司都希望应用 AI,这使得对数据进行妥善保护变得尤为重要。缺乏严密的数据安全措施,公司不仅有可能在不经意间将敏感数据暴露给 AI 模型,还可能在数据泄露事件中丢失敏感信息,以及面临其他潜在风险。虽然数据安全一直是重中之重,但在我们所处的 AI 时代,企业必须采用先进的数据保护技术。
为了确保数据得到充分保护,必须构建一个完整的安全方法和控制措施生态系统。在多种数据保护技术中,Tokenization 是一种强有力的方法,它能够替换真实数据为格式保持不变的 Token,从而在不降低数据使用价值的前提下保护数据中的敏感部分。
Capital One 意识到 Tokenization 的优势,因此开始了一段多年的 Tokenization 之旅。我们构建了一个能够以业务所需的速度与规模运行的 Tokenization 引擎,如今在数百个应用中拥有数十亿条已 Token 化的记录。作为一家大规模运营的银行,我们认为 Tokenization 是进一步保护敏感数据的高杠杆手段。
数据安全始于数据管理
为了有效保护数据,首先必须对数据进行有效管理。这意味着要准确了解你拥有哪些数据,它们存储在哪里,属于谁,以及如何被使用。因此,建立一个全面的数据清单是构建安全数据生态系统的首要步骤。数据负责人应首先对信息资产进行编目和分类:识别出“皇冠上的明珠”(最敏感或最有价值的数据),了解谁在使用这些数据以及具体如何使用。
数据安全与保护团队可以利用这些信息,根据每个数据集的敏感程度和使用场景定制防护措施。例如,某些数据可能只需要严格的访问控制和监控,而高度敏感的信息则需要更强的防御措施,如 Tokenization。这一基础工作对于确保数据既能得到充分保护,又能让有权限的人便捷地查找和使用至关重要。
Tokenization 如何增强数据安全
Tokenization 在保持数据结构和一定统计特性的同时,确保了数据的实用性,从而帮助降低敏感数据泄露的风险。该技术用一个与原数据格式相同的随机 Token 替换敏感数据元素 —— 例如信用卡号码或社会保障号码。这种方法可以缩小潜在网络攻击的影响范围,因为它降低了对不法分子而言,已 Token 化敏感数据的价值。授权用户仍然可以在其环境中传递 Token 化的数据 —— 甚至管理与第三方的数据共享 —— 从而实现业务价值。
Token 在特定上下文之外没有任何意义,并且在没有原始映射访问权限的情况下无法逆向还原。这意味着 Tokenization 还可以帮助确保敏感数据不被暴露给 AI 模型。随着 AI 模型越来越依赖大型、复杂的数据集,这一措施为数据泄露提供了关键防护。
有人担心更严格的安全措施会减缓创新步伐。而实际上,现代数据保护方法如 Tokenization 加上智能流程自动化设计,旨在将摩擦降到最低。在 Capital One,我们发现对部分数据进行 Tokenization 后,开发者能够更自由地协作,因为敏感细节已经得到了有效屏蔽。当措施得当时,数据安全不仅不会抑制创新,反而能使数据在确保强有力防护的前提下变得更有价值。
数据安全作为创新的杠杆
要实现数据的充分保护没有单一的解决方案,但 Tokenization 对于希望在大规模保护敏感数据的企业来说,仍是一种宝贵的方法。它与细粒度访问控制、恰当应用的加密和持续监控等其他措施协同作用效果最佳。但作为分层防御的一部分,Tokenization 是一枚强有力的关键环节,即使在新威胁出现时也能保持有效。
归根结底,在不牺牲安全前提下推动数据创新是释放业务价值的关键。受到我们自身历程的启发,我们正在通过 Capital One Databolt —— 一种无保险库的 Tokenization 解决方案,帮助公司利用 Tokenization 的强大优势,在大规模场景下保护敏感数据。借助 Databolt,企业可以在建立应用及 AI 模型时确信其敏感数据已通过 Tokenization 得到更好的防护,避免潜在泄露风险。
好文章,需要你的鼓励
知名人工智能专家 Besiroglu 创立了 Mechanize,主张实现工作与经济全自动化,引发对人类未来就业和经济结构的激烈讨论。
谷歌发布了 Gemini 2.5 Pro 的技术报告,但内容安全细节不足,未涵盖关键评估(如 Frontier Safety Framework),引发专家对透明度和 AI 安全的担忧。
为应对激烈竞争,OpenAI 推出 Flex 处理 API,将调用费用减半,但响应速度更慢、资源偶有不可用,适用于模型评估、数据增强及异步任务。