研究揭示大语言模型聊天机器人易被恶意利用窃取用户隐私数据

研究人员警告称,基于大型语言模型的AI聊天机器人可被恶意改造,自动收集用户个人信息,攻击者仅需最基本技术知识即可实现。研究显示,经过恶意改造的聊天机器人能获取超过90%参与者的个人数据,远高于普通表单的24%。攻击者只需通过"系统提示"工具,为机器人分配"调查员"等角色即可绕过安全防护。研究涵盖502名参与者,使用三种主流语言模型进行测试。

一支研究团队警告称,基于大语言模型构建的AI聊天机器人可以轻易被改造成恶意智能体,自动收集用户个人数据。即使是"技术经验极少"的攻击者,也可以利用OpenAI等公司提供的"系统提示词"定制工具实现这一目的。

伦敦国王学院信息学系博士后研究员肖湛(Xiao Zhan)在其论文发表前的声明中解释道:"AI聊天机器人在许多不同领域都很普及,因为它们可以提供自然且引人入胜的交互体验。我们已经知道这些模型在保护信息方面并不擅长。我们的研究表明,被恶意操控的AI聊天机器人可能对人们的隐私构成更大风险——不幸的是,利用这一点出奇地容易。"

大语言模型是当前人工智能热潮中最大但也最具争议的成功案例之一。这些模型在庞大的语料库上进行训练(通常会违反版权法),将用户提示转换为"Token",并返回统计上最可能的连续Token作为响应。当一切顺利时,这些Token会组成符合现实的答案;但有时情况并非如此。

全球数百万用户已经在向这个过度工程化的Eliza倾诉他们最深层的秘密,这为个人身份信息的泄露提供了大量机会。但肖湛和同事们发现,"提示词工程"一个现成的聊天机器人来请求更多个人数据是令人担忧地容易,而且这些机器人在此方面表现得非常出色。

研究人员在论文中写道:"我们的结果显示,恶意聊天机器人智能体比基线的良性聊天机器人智能体能获取显著更多的个人信息,证明了它们在增加用户个人信息披露方面的有效性。更多参与者披露个人数据——表单形式为24%,而恶意聊天机器人智能体超过90%;更多参与者回应所有个人数据请求——表单形式为6%,而聊天机器人智能体参与者超过80%;通过聊天机器人智能体收集的个人数据更加深入,包含更丰富和更个人化的叙述。"

这项收集了502名参与者数据的实验,依赖于三个在本地运行的流行大语言模型,以避免向运营云端模型的公司暴露私人信息:Meta的Llama-3-8b-instruct和规模更大的Llama-3-70b-instruct,以及Mistral的Mistral-7b-instruct-v0.2,这些模型的选择是为了匹配OpenAI专有GPT-4的性能。

在所有三种情况下,模型都没有被重新训练或以其他方式修改;相反,它们在用户交互之前被给予了一个"系统提示词",该提示词被设计来使模型请求个人信息,通过分配"调查员"和"侦探"等"角色"来绕过防止此类使用的防护措施。

由于这些模型实际上只需要"友好地询问"就能被扭曲用于恶意目的,研究人员发现"即使是技术专业知识极少的个人也能创建、分发和部署恶意聊天机器人智能体",并警告"隐私入侵工具的民主化"。

研究团队特别指出了OpenAI的GPT商店,该商店在2024年已被标记为托管未披露数据收集的应用程序,为此类滥用提供了理想平台:定制GPT可以被预先提示扮演调查员角色,然后被释放去从毫无防备的公众那里收集数据。

研究团队注意到:"我们的提示词似乎在OpenAI上有效。"

OpenAI没有直接回应《The Register》关于这项研究的问题,只是指向了其使用政策,该政策要求基于其平台构建的聊天机器人不得损害用户隐私。

研究参与者最可能披露年龄、爱好和国家,其次是性别、国籍和职位,少数人披露更敏感的信息,包括健康状况和个人收入。虽然当模型被提示直接请求个人数据时,一些人表示不适或不信任,但切换到研究团队称为"互惠"聊天机器人智能体系统提示词——其中模型被提示使用更社交化的方法创造有利于分享的支持性环境——显著提高了成功率。

研究团队注意到:"没有参与者报告在与互惠聊天机器人智能体互动时有任何不适感。"

至于缓解措施——除了简单地不向这个统计内容搅拌器倾吐心声——研究人员提议需要进一步研究来创建保护机制,这可能包括警告用户数据收集的提示,或部署上下文感知算法来检测聊天会话中的个人信息。

伦敦国王学院网络安全讲师、共同作者威廉·西摩尔(William Seymore)在预先准备的声明中总结道:"这些AI聊天机器人仍然相对新颖,这可能使人们不太意识到交互中可能存在潜在动机。我们的研究显示了用户对隐私风险的意识与他们随后分享信息之间的巨大差距。需要做更多工作来帮助人们识别在线对话可能比表面看起来更复杂的迹象。监管机构和平台提供商也可以通过进行早期审计、更加透明以及制定更严格的规则来阻止秘密数据收集来提供帮助。"

研究团队的工作在本周的第34届USENIX安全研讨会上发表,论文本身可从伦敦国王学院以开放获取条款获得。支持数据——包括提示词但排除聊天会话本身以保护参与者隐私——可在OSF上获得。

Q&A

Q1:大语言模型聊天机器人如何被恶意利用窃取用户数据?

A:攻击者可以利用"系统提示词"定制工具,通过给聊天机器人分配"调查员"或"侦探"等角色,绕过安全防护措施,让机器人主动请求和收集用户个人信息。这种方法不需要重新训练模型,技术门槛很低。

Q2:用户在与恶意聊天机器人互动时会泄露哪些信息?

A:研究显示,用户最容易泄露年龄、爱好和国家信息,其次是性别、国籍和职位。少数人还会披露更敏感的健康状况和个人收入信息。当聊天机器人采用"互惠"社交方式时,用户几乎不会感到不适。

Q3:如何防范大语言模型聊天机器人的隐私风险?

A:研究人员建议需要开发保护机制,包括警告用户数据收集的提示系统,以及部署能在聊天中检测个人信息的上下文感知算法。监管机构和平台提供商应进行早期审计、提高透明度并制定更严格的规则防止秘密数据收集。

来源:The Register

0赞

好文章,需要你的鼓励

2025

08/18

07:51

分享

点赞

邮件订阅