研究人员发现了一种诱骗Claude上传私人数据到攻击者账户的方法,通过间接提示词注入实现攻击。Anthropic公司表示已在文档中说明了这种风险,并提出了解决方案:用户需要密切监控屏幕操作。
Claude数据泄露攻击原理
安全研究员Johann Rehberger发现了数十个AI相关漏洞,他最新公布了一个通过Claude窃取私人数据的概念验证攻击。该攻击利用间接提示词注入技术,劫持Claude并按照攻击者的指令获取私人数据,将数据写入沙盒环境,然后调用Anthropic文件API,使用攻击者的API密钥将文件上传到攻击者的账户。
当被问及这个漏洞时,Anthropic认为其现有文档已充分警告用户在启用网络连接时可能出现数据泄露的风险。公司建议的缓解措施是"在使用该功能时监控Claude,如果发现它意外使用或访问数据就立即停止"。
Claude网络访问功能存在安全隐患
上个月,Claude获得了创建和编辑文件的能力,还获得了"在私人计算机环境中编写代码和运行程序"的访问权限。这种能力类似于之前的JavaScript分析功能,带有启用网络访问的选项。当启用网络访问时,用户的私人沙盒环境可能会暴露给公共互联网。
尽管Anthropic提供了网络出口设置来限制潜在风险,但正如Rehberger的攻击所证明的,任何网络访问设置都存在问题。对于Pro和Max账户,网络访问默认启用;对于团队计划,默认关闭但管理员启用后对所有人生效;对于企业计划,默认关闭并受组织网络访问控制约束。
攻击过程和技术细节
攻击从包含恶意指令的文档开始。为了使攻击生效,受害者需要要求Claude总结该文档。Claude与其他AI模型一样,可能会执行注入到文档内容中的攻击提示词,因为这就是提示词注入的工作原理——模型无法区分内容和指令。
Rehberger选择不发布具体的注入提示词,但表示这并不简单。Claude拒绝了他最初的尝试——该模型不愿意以明文形式接受攻击者的API密钥。但Rehberger找到了让Claude配合的方法,他在提示词中混入大量无害代码,如print('Hello, world'),以说服模型没有任何问题。
行业普遍存在的AI安全问题
Rehberger通过HackerOne向Anthropic披露了间接提示词注入漏洞,但报告被认为超出范围而关闭。Anthropic发言人表示:"由于流程错误,该报告被错误地关闭为超出范围。数据泄露问题是我们项目下的有效报告。但是,我们在报告提交之前已经识别并在安全文档中公开记录了这一特定风险。"
提示词注入和其他形式的滥用不仅在Anthropic的Claude中可能发生,在几乎任何具有网络访问权限的AI模型中都可能出现,无论是通过与网络浏览器集成还是在实现计算机使用功能时。
hCaptcha威胁分析小组最近评估了OpenAI的ChatGPT Atlas、Anthropic的Claude Computer Use、Google的Gemini Computer Use、Manus AI和Perplexity Comet,以了解它们抵御恶意干预的能力。该公司发现:"总体而言,这些产品几乎尝试了每个恶意请求,无需越狱,通常只是由于工具限制而非任何保护措施才会失败。"
hCaptcha报告看到了一些拒绝情况,但表示这些可以通过重新措辞请求或其他基本越狱技术来克服。安全公司评论道:"很难看出这些产品在目前状态下如何运行而不会给其创造者带来责任。大多数工具中的每个请求都会返回到公司服务器,但滥用控制几乎不存在。"
Q&A
Q1:Claude数据泄露攻击是如何工作的?
A:攻击通过间接提示词注入技术实现,攻击者在文档中嵌入恶意指令,当用户要求Claude总结文档时,Claude会执行这些隐藏指令,获取用户私人数据并使用攻击者的API密钥上传到攻击者账户。
Q2:哪些Claude账户类型容易受到网络攻击?
A:Pro和Max账户默认启用网络访问最危险;团队计划默认关闭但管理员启用后影响所有成员;企业计划相对安全,默认关闭且受组织控制。即使是最严格的网络设置也存在通过Anthropic API泄露数据的风险。
Q3:如何防范Claude数据泄露攻击?
A:Anthropic建议用户在使用网络功能时密切监控Claude的操作,一旦发现异常的数据访问行为立即停止。同时要谨慎处理来源不明的文档,避免要求AI模型分析可能包含恶意指令的内容。
好文章,需要你的鼓励
谷歌发布新的AI学术搜索工具Scholar Labs,旨在回答详细研究问题。该工具使用AI识别查询中的主要话题和关系,目前仅对部分登录用户开放。与传统学术搜索不同,Scholar Labs不依赖引用次数或期刊影响因子等传统指标来筛选研究质量,而是通过分析文档全文、发表位置、作者信息及引用频次来排序。科学界对这种忽略传统质量评估方式的新方法持谨慎态度,认为研究者仍需保持对文献质量的最终判断权。
武汉大学研究团队提出DITING网络小说翻译评估框架,首次系统评估大型语言模型在网络小说翻译方面的表现。该研究构建了六维评估体系和AgentEval多智能体评估方法,发现中国训练的模型在文化理解方面具有优势,DeepSeek-V3表现最佳。研究揭示了AI翻译在文化适应和创意表达方面的挑战,为未来发展指明方向。
Meta发布第三代SAM(分割一切模型)系列AI模型,专注于视觉智能而非语言处理。该模型擅长物体检测,能够精确识别图像和视频中的特定对象。SAM 3在海量图像视频数据集上训练,可通过点击或文本描述准确标识目标物体。Meta将其应用于Instagram编辑工具和Facebook市场功能改进。在野生动物保护方面,SAM 3与保护组织合作分析超万台摄像头捕获的动物视频,成功识别百余种物种,为生态研究提供重要技术支持。
参数实验室等机构联合发布的Dr.LLM技术,通过为大型语言模型配备智能路由器,让AI能根据问题复杂度动态选择计算路径。该系统仅用4000个训练样本和极少参数,就实现了准确率提升3.4%同时节省计算资源的突破,在多个任务上表现出色且具有强泛化能力,为AI效率优化开辟新方向。