随着各大组织将人工智能置于核心位置,我们正目睹一场深刻转变:数据的价值正在从"信息本身"转向"实现智能的手段",而后者的重要性远超前者。
但问题随之而来:当企业拥抱AI时,数据究竟归谁所有?企业是保留数据控制权,还是将其拱手交给AI和云服务商?他们甚至清楚自己的数据身在何处吗?
随着AI从实验性工具演变为不可或缺的基础设施,企业领导者有必要认真审视:自己是否真正掌控着属于自己的数据?
这并非纸上谈兵的哲学问题。近期多家大型IT厂商的公告已引发业界警惕。以ServiceNow为例,其新近推出的Context Engine产品能够将客户数据聚合到统一层并实时更新。然而,对于希望在ServiceNow生态之外使用自有AI智能体的客户而言,存在一个潜在代价——超出约定使用量后将产生额外费用。星座研究公司在今年4月的一篇博文中指出,随着使用量的攀升,ServiceNow客户的计量计费也将随之增加。
在笔者看来,这个问题的核心在于控制权,而非成本高低。你的数据,本质上是企业的机构知识与积累的智慧。一旦签署协议将其纳入某家供应商的生态体系,这笔无形资产就有沦为他人资产的风险。
一旦对某家供应商产生依赖,你的控制权便会随之缩水。科技咨询机构Info-Tech Research Group的顾问研究员Scott Bickley在接受CIO.com采访时指出,Context Engine在事实上制造了一种对ServiceNow数据与治理模型、乃至其平台架构的"隐性依赖"。这种担忧并非多余。
缺失的关键要素
要将数据转化为可执行的智能决策,离不开一个核心要素:上下文。而上下文并非唾手可得,需要精心构建。
上下文工程是一门关于结构化、策划与治理AI运行所依赖信息的学科。仅仅将模型指向数据并任其运转,远远不够。模型需要理解哪些数据具有权威性、哪些是最新的、哪些与特定决策相关,以及最关键的一点——它不知道什么。缺乏有意为之的上下文工程,即便是功能强大的大语言模型也会信心十足地"幻觉"出错误答案,从陈旧、残缺或根本错误的信息中生成看似可信、实则有误的输出。
上下文工程的实现路径,是将AI工具引入组织的数据边界之内,而非将数据推送至他人的云端。任何AI架构都需要具备构建丰富上下文层的能力,从而支撑工具进行准确推理。这正是"数据主权"的真实含义:AI在你的上下文中运行,而非在它自己的上下文中运行。
然而,上下文工程本身并不足够。方程式的另一半,是在AI输出结果被纳入组织知识库之前,对其进行验证与核查。这一步骤正被许多组织完全跳过,而这或许是当前这波AI应用浪潮中最致命的失误。
当大语言模型生成一个答案、摘要、建议或报告时,在归档、共享、付诸行动,乃至用于训练技术栈中下一个模型之前,其输出必须经过与真实情况的比对验证——否则将引发令人担忧的"模型崩塌"。一旦某个存在幻觉或细微错误的输出被嵌入知识基础设施,它便会不断扩散,成为影响未来AI输出的上下文背景。
能够做对这件事的组织,将构建出随时间推移越来越精准、越来越值得信赖的AI系统。而忽视这一点的组织,则将发现自己正在应对一场持续累积的"污染风险"——而且难以审计溯源,因为原始错误早已被埋藏在多层下游推理之下。
关键决策时刻
目前,AI的采纳与落地仍处于相对早期阶段。各组织正在就AI架构与平台选型做出关键决策。尽管资金投入与组织资源都押注于此,AI供应商的选择并非不可更改。
更为深远的影响,在于企业与政府如何对待自身数据与外部力量之间的关系。他们会竭尽全力维护掌控权?还是将其中一部分拱手让人?
我们已经迅速将大语言模型当作获取智能的工具——这是超越信息的一步,也是超越原始数据的两步。在这一阶梯式进阶的过程中,我们是否已经沉迷于"智能",以至于忘记了保护自身数据?这个问题的答案,可能令人难以坦然面对。
本文作者Richard Boyd是UltiSim Inc.的联合创始人兼首席执行官。UltiSim是一家总部位于北卡罗来纳州查珀尔希尔的企业AI基础设施与数字孪生公司。
Q&A
Q1:什么是上下文工程,为什么它对AI应用如此重要?
A:上下文工程是一门结构化、策划与治理AI运行所依赖信息的学科。它之所以关键,是因为仅仅将模型指向数据远远不够——模型需要理解哪些数据具有权威性、哪些是最新的、哪些与特定决策相关。缺乏上下文工程,即便强大的大语言模型也会生成看似可信实则错误的输出。上下文工程的核心原则是将AI工具引入组织的数据边界,而非将数据推送到外部云端,从而真正实现数据主权。
Q2:ServiceNow的Context Engine为何引发数据控制权方面的担忧?
A:ServiceNow推出的Context Engine能将客户数据聚合到统一层并实时更新。问题在于,希望在ServiceNow生态之外使用自有AI智能体的客户,可能面临超额使用费用。更深层的隐患是,Info-Tech Research Group顾问Scott Bickley指出,Context Engine制造了对ServiceNow数据治理模型和平台架构的"隐性依赖",企业一旦深度接入,实际上已将部分数据控制权转交给了供应商。
Q3:AI输出结果不经验证直接使用,会带来哪些风险?
A:若大语言模型生成的答案、摘要或报告未经核查便直接归档、共享或用于训练下一个模型,错误输出将被嵌入组织知识库并持续扩散,形成"模型崩塌"。更严重的是,原始错误会被层层下游推理所掩盖,难以追溯审计。随着时间推移,这种累积效应将导致AI系统的可信度持续下滑,最终演变成难以管控的"知识污染"风险。
好文章,需要你的鼓励
牛津大学提出PHYSIFORMER,一种扩散变换器模型,通过三维网格顶点轨迹直接在世界坐标空间预测刚性与弹性物体的物理运动,一次性生成全序列轨迹,超越自回归基线。
随着医疗数据数字化与互操作性的进步,跨机构纵向患者数据的研究应用成为可能。本研究通过对20位领域专家的访谈,识别出8种数据收集方法,涵盖智能手机应用、结构化数据导出、区域/全国研究查询及聚合数据源等。研究发现,各方法均有其优缺点,无单一最优方案。参与者中介交换方式可绕过复杂治理安排,但存在数据缺口;全国性网络尚不支持研究查询。公共政策的持续推进将对该领域发展起关键作用。
研究发现主流奖励模型对同等质量答案给出差异悬殊的分数,并提出"奖励聚类"算法通过蒙特卡洛随机失活将连续分数离散化,在不重训模型的前提下有效减少AI训练中的奖励作弊现象。