研究人员通过数据投毒技术保护知识图谱免遭盗用

中国和新加坡研究人员开发出一种技术，能让被盗的知识图谱数据在未经授权集成到GraphRAG AI系统中时变得无用。该技术名为AURA，通过巧妙地"污染"知识图谱数据，使准确检索需要密钥。测试显示，使用被污染数据的AI模型会100%检索到错误内容，94%的时间给出错误回答。这为保护企业知识图谱等昂贵IP资产提供了实用解决方案。

来自中国和新加坡高校的研究人员开发了一项新技术，能够使被盗的知识图谱数据在未经授权的情况下被整合到GraphRAG AI系统中时变得无用。

大语言模型基于训练数据进行预测，无法有效回应其他数据的查询。AI行业通过检索增强生成（RAG）技术来解决这一局限性，让大语言模型能够访问外部数据集。例如，Google搜索中的AI概览功能就使用RAG为底层Gemini模型提供当前的网络数据，尽管这些数据不一定准确。

GraphRAG是微软为提高RAG效果所做的努力。通过创建称为知识图谱的语义相关数据集群，GraphRAG在与基于大语言模型的系统连接时表现优于基础RAG。数据的结构化使得大语言模型在接收提示时能够做出更准确的预测。

亚马逊、Google和微软都在各自的云服务中支持GraphRAG。

在一篇题为《让盗窃无用：GraphRAG系统中基于掺假的专有知识图谱保护》的预印本论文中，作者王伟杰、吕培卓等人观察到，企业知识图谱的构建成本相当高昂，他们引用了Cyc中包含2100万个断言的知识图谱中每个事实陈述成本5.71美元的数据。

考虑到潜在的高昂成本，企业有动机防止知识图谱资产被盗用来构建竞争性的AI产品——这也是出版商、作者和其他媒体内容创作者所担心的问题。辉瑞和西门子等公司已投资于知识图谱，以促进药物发现并协助制造。

王伟杰、吕培卓及其合作者提出了一种名为AURA的知识图谱防护技术，AURA代表"通过掺假主动降低效用"。这十位作者分别来自中国科学院、新加坡国立大学、南洋理工大学和北京理工大学。

他们在论文中解释，AURA是"一个新颖的框架，能够使被盗的知识图谱对攻击者无用，同时为GraphRAG系统保持最小的性能开销"。

本质上，这是一种巧妙地对知识图谱中的数据进行投毒或掺假的机制，使得准确检索需要密钥。与传统加密不同，目标不是拒绝对明文的访问，而是降低知识图谱对大语言模型的响应质量，使得在没有密钥的情况下进行的预测产生准确性下降和幻觉。

水印等替代方法可能在使数据盗窃可追踪方面有一定效用，但它们不能解决在私人环境中滥用被盗数据的问题。作者认为加密并不实用。

"完全加密文本和嵌入需要为每个查询解密图的大部分内容，"他们声称。"这个过程引入了令人望而却步的计算开销和延迟，使其不适合实际使用。"

这里的威胁模型假设攻击者能够完全窃取知识图谱，但没有获得密钥。商业秘密诉讼证实，像Waymo这样的公司不愿意看到他们的知识产权资产被窃取。

研究人员通过使用MetaQA、WebQSP、FB15K-237和HotpotQA数据集创建掺假的知识图谱来测试他们的技术，然后尝试将这些被投毒的知识图谱与各种大语言模型（GPT-4o、Gemini-2.5-flash、Llama-2-7b和Qwen-2.5-7b）结合部署GraphRAG系统。

结果表明AURA非常有效。模型100%检索到掺假内容，并基于这些错误信息向用户输出错误响应的比例达到94%。

学者们指出，这项技术并不完美，因为在某些情况下，知识图谱可能同时包含关于某个主题的正确和错误（掺假）数据，大语言模型可能会选择正确答案。

虽然存在净化被投毒数据的技术，但作者声称他们的方法主要抵抗基于语义一致性（如Node2Vec）、基于图的异常检测（如ODDBALL）和混合方法（如SEKA）的检查。

"通过降低被盗知识图谱的效用，AURA为保护GraphRAG中的知识产权提供了实用的解决方案，"作者总结道。

Q&A

Q1：AURA技术是什么？它的工作原理是怎样的？

A：AURA是"通过掺假主动降低效用"的缩写，是一种知识图谱防护技术。它通过巧妙地对知识图谱数据进行投毒或掺假，使得准确检索需要密钥。与传统加密不同，它的目标是降低知识图谱对大语言模型的响应质量，让没有密钥的预测产生准确性下降和幻觉。

Q2：AURA技术的防护效果如何？

A：测试结果显示AURA技术非常有效。在实验中，模型100%检索到了掺假内容，并基于这些错误信息向用户输出错误响应的比例达到94%。该技术主要抵抗基于语义一致性、图异常检测和混合方法的检查。

Q3：为什么需要保护知识图谱不被盗用？

A：企业知识图谱的构建成本相当高昂，例如Cyc知识图谱中每个事实陈述的成本达5.71美元。辉瑞和西门子等公司已大量投资于知识图谱用于药物发现和制造辅助。考虑到高昂成本和商业价值，企业有强烈动机防止这些资产被盗用来构建竞争性AI产品。

来源：The Register

0赞

好文章，需要你的鼓励

研究人员通过数据投毒技术保护知识图谱免遭盗用

来源：The Register

2026

01/19

16:47

分享

点赞

星际之门AI数据中心建设雄心遭遇现实挑战

OKX推出AI智能体招聘与支付市场平台

AI编程Token成本将与开发者薪资持平，企业如何应对？

机器学习项目全生命周期管理的成功实践

SVT Robotics的Softbot平台交易量突破40亿笔

Agibot第15000台人形机器人下线，具身AI量产加速

杜尔为大众汽车建设跨工厂集成CO?高效涂装车间

AI对就业的影响：大规模裁员背后的真相与数据

AI重复申请问题推动电网转向"承诺优先"规划

美国消费品安全委员会拟出台电动自行车电池安全新规

江波龙：建设完成mSSD月产能百万交付能力！mSSD高速存储介质赋能端侧AI规模应用

从IO500双榜第一，看国产存储的系统级突破

Moxie Marlinspike推出注重隐私的ChatGPT替代方案Confer

人工智能监管AI系统的时代已经到来

2026年最佳免费AI课程与认证推荐指南

AI云服务初创公司Runpod年收入突破1.2亿美元

数据库公司ClickHouse获4亿美元融资，估值达150亿美元

三大科技巨头同时推出AI医疗工具

苹果与谷歌AI合作正式确定，推出Creator Studio等多项新动态

热门代码生成工具存在严重安全漏洞风险

智谱AI在华为芯片上成功训练多模态图像生成模型

大型银行持续探索AI驱动的效率提升策略

如果您非常迫切的想了解IT领域最新产品与技术信息，那么订阅至顶网技术邮件将是您的最佳途径之一

三一集团：数字化是必选项，AI是生存项

因湃电池 × 达索系统：如何共创出一套电池产业最佳实践

AI走进真实世界之后：安全、健康与产业的新命题

CES 2026

关注官方公众号

关注官方微博

关注官方喜马拉雅

友情链接

业界热点: