你会对聊天机器人透露多少个人信息?
它会解读你的检验报告吗?帮你理财吗?在凌晨2点你特别焦虑时提供建议吗?
可能在不经意间,你已经向聊天机器人透露了大量个人信息,这可能会成为一个问题。
在人们越来越多地将聊天机器人融入日常生活的时代,研究人员正在努力探索向AI提供个人信息可能带来的影响。
据悉,43%的员工表示他们已经与AI分享了敏感信息,包括财务和客户数据。
你可能已经听说过人们与聊天机器人建立浪漫关系或将它们用作生活教练和心理治疗师的故事。实际上,根据伊隆大学2025年的研究,超过一半的美国成年人使用大语言模型。更重要的是,聊天机器人被设计得友好且能够吸引人们持续聊天——谈论自己。
"最根本的问题是你无法控制信息的流向,它可能以你完全意想不到的方式泄露出去,"斯坦福人工智能研究院隐私与数据政策研究员詹妮弗·金说。
尽管这个理论听起来很抽象,但像金这样的研究人员表示,值得考虑你到底在告诉聊天机器人什么,以及这些信息在未来可能产生的后果。
以下是关于与聊天机器人过度分享个人信息你应该了解的几个要点。
向聊天机器人提供敏感个人信息有什么危害
没有人确切知道,这正是问题所在。研究人员的一个疑问是模型是否会记住信息,如果是,这些信息是否能被诱导以原文或近似原文的形式重新输出。记忆化实际上是《纽约时报》起诉OpenAI的核心投诉之一。(OpenAI在2024年的声明中表示"重复输出是一个罕见的错误",他们正在努力消除。)
"我们非常依赖公司做正确的事情,努力设置防护栏来防止记忆化数据泄露出来,"金说。
在互联网上,人们有各种个人信息在流传,包括公共记录中的信息,这些都可能成为训练数据。或者有人可能上传了一份文档,比如放射学报告或医疗账单,而没有删除敏感信息。
一个担忧是所有这些数据可能被用于监控,金说。
如果这种担忧听起来像杞人忧天,金回顾了Anthropic在过去几周与国防部的争执,该公司反对其产品被用于大规模国内监控。
"从中得出的最重要的一点是默认承认这些东西可以用于大规模公共监控,"她说。"这正是我们担心的事情,你可以使用这些模型来查看如此多不同的数据点。"
即使模型没有特定数据,它们仍然可能对人们做出预测。
在斯坦福关于她团队研究的一篇文章中,金举了一个例子:请求健康晚餐建议的查询通过开发者的生态系统进行过滤,将你分类为"健康脆弱"人群,这些信息最终落到保险公司手中。
金的研究发现显示,公司正在采取什么措施来解决这些问题并不总是很清楚。一些组织在将数据用于训练之前采取措施对数据进行去识别化处理,比如模糊上传照片中的面部,这可以防止这些图片在未来被用于面部识别。其他公司可能什么都不做。
尽管平台设置往往复杂如迷宫,但花时间了解你的选择是值得的。一些聊天机器人,如Claude和ChatGPT,提供私人聊天。如果你使用Claude的隐身聊天,你的对话将不会保存到聊天历史记录中或用于训练。不过,这些聊天不是固定设置。ChatGPT的临时聊天也是如此。
在平台中可能还有其他选项来删除聊天历史记录或完全选择不让你的聊天用于模型训练数据。
金还说记住一点很重要,比如你是在使用自己的账户还是工作账户。
"人们要么不知道,要么忘记了他们在与什么对话,"她说。"这是你的工作环境,你的工作AI,而你一直在告诉它你感到非常沑郁。在那里员工没有隐私期望。"
大多数人可能习惯于在互联网上进行一定程度的信息披露。即使是谷歌搜索也可能包含关于一个人生活的敏感信息。
不过,与聊天机器人的对话增加了更多信息和上下文。
"搜索查询的透露性要少得多,特别是关于你的情绪状态,相比于整个聊天记录,"金说,她将搜索自杀预防热线之类的内容与详述一个人内心最深处想法和感受的1000行记录进行比较。
众所周知,AI不是人类。对一些人来说,这个概念可能让他们更愿意分享敏感信息。但仅仅因为没有人在那边打字回复,并不意味着没有人可能读取你的消息。
金指出,一些平台使用人类进行强化学习,系统部分基于人类输入进行训练。例如,如果你标记一个聊天机器人回复,世界某处的工作人员可能会检查它以改进模型。正如金所说,你输入的内容何时可能被人类审查并不总是很清楚。
让这些问题特别棘手的是,围绕AI公司如何存储敏感数据缺乏监管。
例如,《加州消费者隐私法》对如何处理医疗记录等数据有某些要求,这些数据需要与其他形式的数据区别对待。但美国的监管可能因州而异,在联邦层面——没有监管。
"如果我们有保护我们的法律,风险就不会那么大,"金说。
如果你发现自己感到后悔,因为你可能已经向聊天机器人透露了太多信息,你可能有几个选择。金建议删除旧对话和你可能为未来做的个性化设置。
这些步骤是否从训练数据中删除你的信息,金说,研究人员只是不知道。
每个平台都有自己处理个人数据的政策和方法,这可能需要一些深入挖掘。以下是一些主要平台资源的链接。
Q&A
Q1:聊天机器人会记住我的个人信息吗?
A:研究人员不确定模型是否会记住信息,以及这些信息是否能被诱导输出。这是《纽约时报》起诉OpenAI的核心投诉之一。OpenAI表示"重复输出是一个罕见的错误",但我们无法完全控制信息的流向。
Q2:与聊天机器人分享个人信息比网络搜索风险更大吗?
A:是的。搜索查询透露的信息较少,特别是关于情绪状态,而与聊天机器人的完整对话可能包含详述个人内心想法和感受的大量信息,风险更高。
Q3:如何保护与聊天机器人对话的隐私?
A:可以使用Claude的隐身聊天或ChatGPT的临时聊天功能,这些对话不会保存到历史记录或用于训练。还可以删除聊天历史记录,选择不让对话用于模型训练数据。
好文章,需要你的鼓励
Replit与RevenueCat达成合作,将订阅变现工具直接集成至Replit平台。用户只需通过自然语言提示(如"添加订阅"),即可完成应用内购和订阅配置,无需离开平台。RevenueCat管理超8万款应用的订阅业务,每月处理约10亿美元交易。此次合作旨在让"氛围编程"用户在构建应用的同时即可实现商业变现,月收入未达2500美元前免费使用,超出后收取1%费用。
LiVER是由北京大学、北京邮电大学等机构联合提出的视频生成框架,核心创新是将物理渲染技术与AI视频生成结合,通过Blender引擎计算漫反射、粗糙GGX和光泽GGX三种光照图像构成"场景代理",引导视频扩散模型生成光影物理准确的视频。框架包含渲染器智能体、轻量化编码器适配器和三阶段训练策略,支持对光照、场景布局和摄像机轨迹的独立精确控制。配套构建的LiVERSet数据集含约11000段标注视频,实验显示该方法在视频质量和控制精度上均优于现有方法。
所有人都说AI需要护栏,但真正在构建它的人寥寥无几。SkipLabs创始人Julien Verlaguet深耕这一问题已逾一年,他发现市面上多数"护栏"不过是提示词包装。为此,他打造了专为后端服务设计的AI编程智能体Skipper,基于健全的TypeScript类型系统与响应式运行时,实现增量式代码生成与测试,内部基准测试通过率超90%。他认为,编程语言的"人类可读性时代"正走向终结,面向智能体的精确工具链才是未来。
这项由蒙特利尔学习算法研究所(Mila)与麦吉尔大学联合发布的研究(arXiv:2604.07776,2026年4月)提出了AGENT-AS-ANNOTATORS框架,通过模仿人类数据标注的三种角色分工,系统化生成高质量网页智能体训练轨迹。以Gemini 3 Pro为教师模型,仅用2322条精选轨迹对90亿参数的Qwen3.5-9B模型进行监督微调,在WebArena基准上达到41.5%成功率,超越GPT-4o和Claude 3.5 Sonnet,并在从未见过的企业平台WorkArena L1上提升18.2个百分点,验证了"数据质量远比数量重要"这一核心结论。