你会对聊天机器人透露多少个人信息?
它会解读你的检验报告吗?帮你理财吗?在凌晨2点你特别焦虑时提供建议吗?
可能在不经意间,你已经向聊天机器人透露了大量个人信息,这可能会成为一个问题。
在人们越来越多地将聊天机器人融入日常生活的时代,研究人员正在努力探索向AI提供个人信息可能带来的影响。
据悉,43%的员工表示他们已经与AI分享了敏感信息,包括财务和客户数据。
你可能已经听说过人们与聊天机器人建立浪漫关系或将它们用作生活教练和心理治疗师的故事。实际上,根据伊隆大学2025年的研究,超过一半的美国成年人使用大语言模型。更重要的是,聊天机器人被设计得友好且能够吸引人们持续聊天——谈论自己。
"最根本的问题是你无法控制信息的流向,它可能以你完全意想不到的方式泄露出去,"斯坦福人工智能研究院隐私与数据政策研究员詹妮弗·金说。
尽管这个理论听起来很抽象,但像金这样的研究人员表示,值得考虑你到底在告诉聊天机器人什么,以及这些信息在未来可能产生的后果。
以下是关于与聊天机器人过度分享个人信息你应该了解的几个要点。
向聊天机器人提供敏感个人信息有什么危害
没有人确切知道,这正是问题所在。研究人员的一个疑问是模型是否会记住信息,如果是,这些信息是否能被诱导以原文或近似原文的形式重新输出。记忆化实际上是《纽约时报》起诉OpenAI的核心投诉之一。(OpenAI在2024年的声明中表示"重复输出是一个罕见的错误",他们正在努力消除。)
"我们非常依赖公司做正确的事情,努力设置防护栏来防止记忆化数据泄露出来,"金说。
在互联网上,人们有各种个人信息在流传,包括公共记录中的信息,这些都可能成为训练数据。或者有人可能上传了一份文档,比如放射学报告或医疗账单,而没有删除敏感信息。
一个担忧是所有这些数据可能被用于监控,金说。
如果这种担忧听起来像杞人忧天,金回顾了Anthropic在过去几周与国防部的争执,该公司反对其产品被用于大规模国内监控。
"从中得出的最重要的一点是默认承认这些东西可以用于大规模公共监控,"她说。"这正是我们担心的事情,你可以使用这些模型来查看如此多不同的数据点。"
即使模型没有特定数据,它们仍然可能对人们做出预测。
在斯坦福关于她团队研究的一篇文章中,金举了一个例子:请求健康晚餐建议的查询通过开发者的生态系统进行过滤,将你分类为"健康脆弱"人群,这些信息最终落到保险公司手中。
金的研究发现显示,公司正在采取什么措施来解决这些问题并不总是很清楚。一些组织在将数据用于训练之前采取措施对数据进行去识别化处理,比如模糊上传照片中的面部,这可以防止这些图片在未来被用于面部识别。其他公司可能什么都不做。
尽管平台设置往往复杂如迷宫,但花时间了解你的选择是值得的。一些聊天机器人,如Claude和ChatGPT,提供私人聊天。如果你使用Claude的隐身聊天,你的对话将不会保存到聊天历史记录中或用于训练。不过,这些聊天不是固定设置。ChatGPT的临时聊天也是如此。
在平台中可能还有其他选项来删除聊天历史记录或完全选择不让你的聊天用于模型训练数据。
金还说记住一点很重要,比如你是在使用自己的账户还是工作账户。
"人们要么不知道,要么忘记了他们在与什么对话,"她说。"这是你的工作环境,你的工作AI,而你一直在告诉它你感到非常沑郁。在那里员工没有隐私期望。"
大多数人可能习惯于在互联网上进行一定程度的信息披露。即使是谷歌搜索也可能包含关于一个人生活的敏感信息。
不过,与聊天机器人的对话增加了更多信息和上下文。
"搜索查询的透露性要少得多,特别是关于你的情绪状态,相比于整个聊天记录,"金说,她将搜索自杀预防热线之类的内容与详述一个人内心最深处想法和感受的1000行记录进行比较。
众所周知,AI不是人类。对一些人来说,这个概念可能让他们更愿意分享敏感信息。但仅仅因为没有人在那边打字回复,并不意味着没有人可能读取你的消息。
金指出,一些平台使用人类进行强化学习,系统部分基于人类输入进行训练。例如,如果你标记一个聊天机器人回复,世界某处的工作人员可能会检查它以改进模型。正如金所说,你输入的内容何时可能被人类审查并不总是很清楚。
让这些问题特别棘手的是,围绕AI公司如何存储敏感数据缺乏监管。
例如,《加州消费者隐私法》对如何处理医疗记录等数据有某些要求,这些数据需要与其他形式的数据区别对待。但美国的监管可能因州而异,在联邦层面——没有监管。
"如果我们有保护我们的法律,风险就不会那么大,"金说。
如果你发现自己感到后悔,因为你可能已经向聊天机器人透露了太多信息,你可能有几个选择。金建议删除旧对话和你可能为未来做的个性化设置。
这些步骤是否从训练数据中删除你的信息,金说,研究人员只是不知道。
每个平台都有自己处理个人数据的政策和方法,这可能需要一些深入挖掘。以下是一些主要平台资源的链接。
Q&A
Q1:聊天机器人会记住我的个人信息吗?
A:研究人员不确定模型是否会记住信息,以及这些信息是否能被诱导输出。这是《纽约时报》起诉OpenAI的核心投诉之一。OpenAI表示"重复输出是一个罕见的错误",但我们无法完全控制信息的流向。
Q2:与聊天机器人分享个人信息比网络搜索风险更大吗?
A:是的。搜索查询透露的信息较少,特别是关于情绪状态,而与聊天机器人的完整对话可能包含详述个人内心想法和感受的大量信息,风险更高。
Q3:如何保护与聊天机器人对话的隐私?
A:可以使用Claude的隐身聊天或ChatGPT的临时聊天功能,这些对话不会保存到历史记录或用于训练。还可以删除聊天历史记录,选择不让对话用于模型训练数据。
好文章,需要你的鼓励
牛津大学提出PHYSIFORMER,一种扩散变换器模型,通过三维网格顶点轨迹直接在世界坐标空间预测刚性与弹性物体的物理运动,一次性生成全序列轨迹,超越自回归基线。
随着医疗数据数字化与互操作性的进步,跨机构纵向患者数据的研究应用成为可能。本研究通过对20位领域专家的访谈,识别出8种数据收集方法,涵盖智能手机应用、结构化数据导出、区域/全国研究查询及聚合数据源等。研究发现,各方法均有其优缺点,无单一最优方案。参与者中介交换方式可绕过复杂治理安排,但存在数据缺口;全国性网络尚不支持研究查询。公共政策的持续推进将对该领域发展起关键作用。
研究发现主流奖励模型对同等质量答案给出差异悬殊的分数,并提出"奖励聚类"算法通过蒙特卡洛随机失活将连续分数离散化,在不重训模型的前提下有效减少AI训练中的奖励作弊现象。