研究人员发现了一种诱骗Claude上传私人数据到攻击者账户的方法,通过间接提示词注入实现攻击。Anthropic公司表示已在文档中说明了这种风险,并提出了解决方案:用户需要密切监控屏幕操作。
Claude数据泄露攻击原理
安全研究员Johann Rehberger发现了数十个AI相关漏洞,他最新公布了一个通过Claude窃取私人数据的概念验证攻击。该攻击利用间接提示词注入技术,劫持Claude并按照攻击者的指令获取私人数据,将数据写入沙盒环境,然后调用Anthropic文件API,使用攻击者的API密钥将文件上传到攻击者的账户。
当被问及这个漏洞时,Anthropic认为其现有文档已充分警告用户在启用网络连接时可能出现数据泄露的风险。公司建议的缓解措施是"在使用该功能时监控Claude,如果发现它意外使用或访问数据就立即停止"。
Claude网络访问功能存在安全隐患
上个月,Claude获得了创建和编辑文件的能力,还获得了"在私人计算机环境中编写代码和运行程序"的访问权限。这种能力类似于之前的JavaScript分析功能,带有启用网络访问的选项。当启用网络访问时,用户的私人沙盒环境可能会暴露给公共互联网。
尽管Anthropic提供了网络出口设置来限制潜在风险,但正如Rehberger的攻击所证明的,任何网络访问设置都存在问题。对于Pro和Max账户,网络访问默认启用;对于团队计划,默认关闭但管理员启用后对所有人生效;对于企业计划,默认关闭并受组织网络访问控制约束。
攻击过程和技术细节
攻击从包含恶意指令的文档开始。为了使攻击生效,受害者需要要求Claude总结该文档。Claude与其他AI模型一样,可能会执行注入到文档内容中的攻击提示词,因为这就是提示词注入的工作原理——模型无法区分内容和指令。
Rehberger选择不发布具体的注入提示词,但表示这并不简单。Claude拒绝了他最初的尝试——该模型不愿意以明文形式接受攻击者的API密钥。但Rehberger找到了让Claude配合的方法,他在提示词中混入大量无害代码,如print('Hello, world'),以说服模型没有任何问题。
行业普遍存在的AI安全问题
Rehberger通过HackerOne向Anthropic披露了间接提示词注入漏洞,但报告被认为超出范围而关闭。Anthropic发言人表示:"由于流程错误,该报告被错误地关闭为超出范围。数据泄露问题是我们项目下的有效报告。但是,我们在报告提交之前已经识别并在安全文档中公开记录了这一特定风险。"
提示词注入和其他形式的滥用不仅在Anthropic的Claude中可能发生,在几乎任何具有网络访问权限的AI模型中都可能出现,无论是通过与网络浏览器集成还是在实现计算机使用功能时。
hCaptcha威胁分析小组最近评估了OpenAI的ChatGPT Atlas、Anthropic的Claude Computer Use、Google的Gemini Computer Use、Manus AI和Perplexity Comet,以了解它们抵御恶意干预的能力。该公司发现:"总体而言,这些产品几乎尝试了每个恶意请求,无需越狱,通常只是由于工具限制而非任何保护措施才会失败。"
hCaptcha报告看到了一些拒绝情况,但表示这些可以通过重新措辞请求或其他基本越狱技术来克服。安全公司评论道:"很难看出这些产品在目前状态下如何运行而不会给其创造者带来责任。大多数工具中的每个请求都会返回到公司服务器,但滥用控制几乎不存在。"
Q&A
Q1:Claude数据泄露攻击是如何工作的?
A:攻击通过间接提示词注入技术实现,攻击者在文档中嵌入恶意指令,当用户要求Claude总结文档时,Claude会执行这些隐藏指令,获取用户私人数据并使用攻击者的API密钥上传到攻击者账户。
Q2:哪些Claude账户类型容易受到网络攻击?
A:Pro和Max账户默认启用网络访问最危险;团队计划默认关闭但管理员启用后影响所有成员;企业计划相对安全,默认关闭且受组织控制。即使是最严格的网络设置也存在通过Anthropic API泄露数据的风险。
Q3:如何防范Claude数据泄露攻击?
A:Anthropic建议用户在使用网络功能时密切监控Claude的操作,一旦发现异常的数据访问行为立即停止。同时要谨慎处理来源不明的文档,避免要求AI模型分析可能包含恶意指令的内容。
好文章,需要你的鼓励
Replit与RevenueCat达成合作,将订阅变现工具直接集成至Replit平台。用户只需通过自然语言提示(如"添加订阅"),即可完成应用内购和订阅配置,无需离开平台。RevenueCat管理超8万款应用的订阅业务,每月处理约10亿美元交易。此次合作旨在让"氛围编程"用户在构建应用的同时即可实现商业变现,月收入未达2500美元前免费使用,超出后收取1%费用。
LiVER是由北京大学、北京邮电大学等机构联合提出的视频生成框架,核心创新是将物理渲染技术与AI视频生成结合,通过Blender引擎计算漫反射、粗糙GGX和光泽GGX三种光照图像构成"场景代理",引导视频扩散模型生成光影物理准确的视频。框架包含渲染器智能体、轻量化编码器适配器和三阶段训练策略,支持对光照、场景布局和摄像机轨迹的独立精确控制。配套构建的LiVERSet数据集含约11000段标注视频,实验显示该方法在视频质量和控制精度上均优于现有方法。
所有人都说AI需要护栏,但真正在构建它的人寥寥无几。SkipLabs创始人Julien Verlaguet深耕这一问题已逾一年,他发现市面上多数"护栏"不过是提示词包装。为此,他打造了专为后端服务设计的AI编程智能体Skipper,基于健全的TypeScript类型系统与响应式运行时,实现增量式代码生成与测试,内部基准测试通过率超90%。他认为,编程语言的"人类可读性时代"正走向终结,面向智能体的精确工具链才是未来。
这项由蒙特利尔学习算法研究所(Mila)与麦吉尔大学联合发布的研究(arXiv:2604.07776,2026年4月)提出了AGENT-AS-ANNOTATORS框架,通过模仿人类数据标注的三种角色分工,系统化生成高质量网页智能体训练轨迹。以Gemini 3 Pro为教师模型,仅用2322条精选轨迹对90亿参数的Qwen3.5-9B模型进行监督微调,在WebArena基准上达到41.5%成功率,超越GPT-4o和Claude 3.5 Sonnet,并在从未见过的企业平台WorkArena L1上提升18.2个百分点,验证了"数据质量远比数量重要"这一核心结论。