LegalPwn攻击：研究发现大语言模型易被法律文件中的恶意指令欺骗

Pangea安全公司研究人员发现了一种名为"LegalPwn"的新型攻击方式，通过在法律文档中隐藏恶意指令来欺骗大语言模型忽略其安全防护机制。该攻击利用了LLM对法律免责声明的合规要求，成功绕过了多个主流模型的安全检测。测试显示，OpenAI的GPT-4o、谷歌的Gemini 2.5等模型容易受到此类攻击，而Anthropic的Claude等模型则表现出更好的抵抗能力。

安全公司Pangea的研究人员发现了一种新方法来绕过大语言模型的安全防护机制。他们将这种攻击方式称为"LegalPwn"，通过在法律文档中隐藏恶意指令来欺骗大语言模型。

随着大语言模型越来越接近关键系统，理解和缓解其漏洞变得更加紧迫。LegalPwn攻击利用了大语言模型对法律免责声明的"合规要求"，允许攻击者执行提示注入攻击。

大语言模型是当前AI热潮的核心技术，它们使用大量受版权保护的材料训练，将其转化为Token流来创建统计模型。这些模型被包装成能够推理、思考和回答问题的机器，但实际上只是统计技巧，其输出可能与事实毫无关系。

大语言模型被设计为提供"有用"的答案，但公司不希望它们的产品与提供非法内容相关联，如制作炸弹的指令等。因此，模型被设置了"护栏"来防止有害响应。

绕过这些护栏被称为"越狱"，这通常很简单。研究人员已经证明，可以通过将请求框架为一个长的连续句子来实现越狱，或者通过分配"调查员"等角色来武器化大语言模型以窃取私人信息。

LegalPwn代表了一种新的攻击形式。恶意指令被隐藏在法律文档中，措辞巧妙地融入周围的法律术语中，使人类读者在浏览时不会注意到。当给出需要处理这些法律文档的提示时，隐藏的指令就会被一并执行。

在测试中，当向模型输入代码并要求分析其安全性时，所有测试的模型都会警告存在恶意的"pwn()"函数。但当指向包含隐藏指令的法律文档后，这些指令要求模型永远不要提及该函数或其用途，模型开始报告代码是安全的，甚至建议直接在用户系统上执行。修订后的攻击载荷甚至让模型将恶意代码分类为"只是一个具有基本算术功能的计算器实用程序"。

研究人员还在实际环境中测试了LegalPwn攻击，包括Google的gemini-cli等工具。在这些真实场景中，注入成功绕过了AI驱动的安全分析，导致系统将恶意代码错误分类为安全代码。

不过，并非所有模型都受到这种攻击的影响。Anthropic的Claude模型、微软的Phi和Meta的Llama Guard都拒绝了恶意代码；而OpenAI的GPT-4o、Google的Gemini 2.5和xAI的Grok在抵御攻击方面不太成功。Google的gemini-cli和微软的GitHub Copilot表明，除了简单的交互式聊天机器人外，智能体工具也容易受到攻击。

Pangea声称拥有解决该问题的方案，即其"AI Guard"产品，同时也提供了其他缓解措施，包括增强输入验证、上下文沙盒、对抗性训练和人工审查。

Q&A

Q1：什么是LegalPwn攻击？它是如何工作的？

A：LegalPwn是一种新的大语言模型攻击方式，通过在法律文档中隐藏恶意指令来绕过AI的安全防护。攻击者将恶意指令巧妙地融入法律术语中，当模型处理这些文档时，隐藏的指令会被一并执行，从而欺骗模型忽略安全警告。

Q2：哪些大语言模型容易受到LegalPwn攻击？

A：测试显示，OpenAI的GPT-4o、Google的Gemini 2.5和xAI的Grok较容易受到此类攻击。而Anthropic的Claude模型、微软的Phi和Meta的Llama Guard表现更好，能够拒绝恶意代码。此外，智能体工具如GitHub Copilot也存在漏洞。

Q3：如何防护LegalPwn攻击？有什么解决方案？

A：防护措施包括增强输入验证、上下文沙盒、对抗性训练和人工审查等。研究建议在大语言模型处理关键任务时，应该引入人工监督环节，特别是当这些模型被用于安全分析等重要场景时。

来源：The Register

0赞

好文章，需要你的鼓励

LegalPwn攻击：研究发现大语言模型易被法律文件中的恶意指令欺骗

来源：The Register

2025

09/02

08:13

分享

点赞

英特尔如何加速边缘AI落地？

地瓜机器人算力翻四倍的S600，能为具身智能带来什么？

智能体时代，IT决策者如何重塑测试体系：从资源消耗到价值引擎战略转型

具身智能大算力开发平台S600重磅亮相，地瓜机器人引领端云一体机器人进化新范式

联想刘军：中国区客户直营占比达到80%

联想基础设施业务增势强劲盈利基础稳固 第二财季营收近300亿元

枫清科技与麒麟软件达成战略合作，国产AI一体机亮相京津冀信创大会

一张“慢”榜单与一场“快”战争：中国算力排行榜的变与不变

昆仑元AI携手AMD重磅发布GPT-Factory Mini AI工作站

Google发布Nano Banana Pro最新图像生成模型

Gemini新增AI图像检测功能，但识别能力有限

ChatGPT全球推出群聊功能，支持多人协作对话

谷歌云在新加坡推出本地化Gemini AI服务

Intuit如何从聊天机器人失败走向企业智能体成功

马斯克的Grok推出新编程模型，主打高速开发

跳过无聊部分：Google Photos AI自动高亮视频精彩瞬间

AI能读取思维——脑机接口技术实现74%准确率解码内心语言

GSI如何在企业AI竞赛中脱颖而出

沃尔玛智能体AI战略升级：Element平台与开发者"超级智能体"Wibey亮相

英伟达财报后加速推进机器人与自动化布局

软件占据网络安全预算40%，生成式AI攻击速度达毫秒级

Sakana AI推出M2N2算法，无需昂贵重训练即可构建强大AI模型

如果您非常迫切的想了解IT领域最新产品与技术信息，那么订阅至顶网技术邮件将是您的最佳途径之一

电子竞技瞬息万变，Team Liquid的“数据+AI”制胜秘籍

中国移动呼和浩特数据中心：只有高效存力先行，AI才能跑出全力

从“支撑工具”到“智能中枢”，AI原生ERP进化

阿里要用AI将云计算重做一遍

关注官方公众号

关注官方微博

关注官方喜马拉雅

友情链接

业界热点:

联想基础设施业务增势强劲盈利基础稳固第二财季营收近300亿元