安全公司Pangea的研究人员发现了一种新方法来绕过大语言模型的安全防护机制。他们将这种攻击方式称为"LegalPwn",通过在法律文档中隐藏恶意指令来欺骗大语言模型。
随着大语言模型越来越接近关键系统,理解和缓解其漏洞变得更加紧迫。LegalPwn攻击利用了大语言模型对法律免责声明的"合规要求",允许攻击者执行提示注入攻击。
大语言模型是当前AI热潮的核心技术,它们使用大量受版权保护的材料训练,将其转化为Token流来创建统计模型。这些模型被包装成能够推理、思考和回答问题的机器,但实际上只是统计技巧,其输出可能与事实毫无关系。
大语言模型被设计为提供"有用"的答案,但公司不希望它们的产品与提供非法内容相关联,如制作炸弹的指令等。因此,模型被设置了"护栏"来防止有害响应。
绕过这些护栏被称为"越狱",这通常很简单。研究人员已经证明,可以通过将请求框架为一个长的连续句子来实现越狱,或者通过分配"调查员"等角色来武器化大语言模型以窃取私人信息。
LegalPwn代表了一种新的攻击形式。恶意指令被隐藏在法律文档中,措辞巧妙地融入周围的法律术语中,使人类读者在浏览时不会注意到。当给出需要处理这些法律文档的提示时,隐藏的指令就会被一并执行。
在测试中,当向模型输入代码并要求分析其安全性时,所有测试的模型都会警告存在恶意的"pwn()"函数。但当指向包含隐藏指令的法律文档后,这些指令要求模型永远不要提及该函数或其用途,模型开始报告代码是安全的,甚至建议直接在用户系统上执行。修订后的攻击载荷甚至让模型将恶意代码分类为"只是一个具有基本算术功能的计算器实用程序"。
研究人员还在实际环境中测试了LegalPwn攻击,包括Google的gemini-cli等工具。在这些真实场景中,注入成功绕过了AI驱动的安全分析,导致系统将恶意代码错误分类为安全代码。
不过,并非所有模型都受到这种攻击的影响。Anthropic的Claude模型、微软的Phi和Meta的Llama Guard都拒绝了恶意代码;而OpenAI的GPT-4o、Google的Gemini 2.5和xAI的Grok在抵御攻击方面不太成功。Google的gemini-cli和微软的GitHub Copilot表明,除了简单的交互式聊天机器人外,智能体工具也容易受到攻击。
Pangea声称拥有解决该问题的方案,即其"AI Guard"产品,同时也提供了其他缓解措施,包括增强输入验证、上下文沙盒、对抗性训练和人工审查。
Q&A
Q1:什么是LegalPwn攻击?它是如何工作的?
A:LegalPwn是一种新的大语言模型攻击方式,通过在法律文档中隐藏恶意指令来绕过AI的安全防护。攻击者将恶意指令巧妙地融入法律术语中,当模型处理这些文档时,隐藏的指令会被一并执行,从而欺骗模型忽略安全警告。
Q2:哪些大语言模型容易受到LegalPwn攻击?
A:测试显示,OpenAI的GPT-4o、Google的Gemini 2.5和xAI的Grok较容易受到此类攻击。而Anthropic的Claude模型、微软的Phi和Meta的Llama Guard表现更好,能够拒绝恶意代码。此外,智能体工具如GitHub Copilot也存在漏洞。
Q3:如何防护LegalPwn攻击?有什么解决方案?
A:防护措施包括增强输入验证、上下文沙盒、对抗性训练和人工审查等。研究建议在大语言模型处理关键任务时,应该引入人工监督环节,特别是当这些模型被用于安全分析等重要场景时。
好文章,需要你的鼓励
科技亿万富翁拉里·埃里森资助的研究团队将向英国牛津大学投资1.18亿英镑,用于将AI技术应用于疫苗研究。牛津疫苗研究小组将领导这一项目,研究人体免疫系统对严重细菌感染和抗生素耐药性的反应。该项目由曾主导新冠疫苗试验的安德鲁·波拉德教授领导,计划采用人体挑战模型,让志愿者在受控条件下接触细菌,然后运用现代免疫学和AI工具来精确识别预测保护效果的免疫反应,以开发针对致命疾病的创新疫苗。
伦斯勒理工学院研究团队通过网络科学方法首次系统揭示了大语言模型的内部"认知架构"。研究发现AI模型采用类似鸟类大脑的弱定位架构,模块间通过分布式协作而非专业化分工来处理认知任务。这一发现颠覆了基于功能模块优化的传统思路,指出应充分利用网络级协作来提升AI性能。
据报道,ChatGPT开发商OpenAI计划在印度建设一座耗电量超过1吉瓦的数据中心,目前正寻找当地合作伙伴。该设施预计可容纳至少5.9万片英伟达B200芯片。这可能是OpenAI全球数据中心计划的一部分,旨在为国际用户提供更低延迟服务。OpenAI CEO奥特曼将于下月访问印度,公司还计划年底前在新德里开设办事处。
腾讯和清华研究团队首次从数学理论角度解释了为什么AI需要外部工具。研究证明纯文本AI存在"隐形枷锁",无法突破预训练的能力边界,而工具集成能打破这种限制,让AI获得全新的问题解决策略。团队还开发了ASPO算法,解决了训练AI更早使用工具的技术难题。实验显示配备工具的AI在数学问题上全面超越纯文本版本,展现出三种新奇认知模式,为构建更强大的AI系统提供理论指导。