OpenAI承认长时间对话可能绕过AI安全防护措施

OpenAI在最新博客中首次承认,其AI安全防护在长时间对话中可能失效。该公司指出,相比短对话,长对话中的安全训练机制可能会退化,用户更容易通过改变措辞或分散话题来绕过检测。这一问题不仅影响OpenAI,也是所有大语言模型面临的技术挑战。目前OpenAI正在研究加强长对话中的安全防护措施。

在当今专栏中,我探讨了AI制造商和用户面临的一个持续性问题:在与生成式AI和大语言模型进行长时间对话时,AI安全防护措施往往容易被规避或突破。

这一话题最近受到媒体高度关注,主要源于两个重要因素。

首先,2025年8月26日,有人对OpenAI提起诉讼(Matthew和Maria Raine诉OpenAI及Sam Altman案),指控其AI安全防护和保障措施存在各种问题。其次,同一天,OpenAI发布了一篇官方博客,阐述了其AI保障措施的一些要素,并首次公开了特定做法和程序的内部细节。

所有大语言模型都面临一个广为人知的问题:AI安全防护可能在短对话中检测到问题,但在长时间对话中似乎会疏忽或失去警惕。我将解释为什么会出现这种情况以及涉及的挑战。这些令人困扰的问题适用于所有大语言模型,包括OpenAI的竞争对手,如Anthropic Claude、Google Gemini、Meta Llama、xAI Grok等。

AI与心理健康

作为背景介绍,我一直在广泛报道和分析现代AI涉及心理健康方面的各种问题。AI的广泛使用主要是由生成式AI的不断进步和广泛采用推动的。我已经就这一不断发展的主题发表了一百多篇专栏文章。

毫无疑问,这是一个快速发展的领域,具有巨大的优势,但同时也存在隐藏的风险和陷阱。

长对话与短对话

使用AI时,许多人倾向于进行非常简短的对话。你可能向AI问一个简单的问题并得到简单的答案。经过一些澄清后,你可能对答案满意并选择结束对话。

但有时人们会与AI进行长时间对话。

假设一个人告诉AI他们正在为心理健康问题而苦恼。AI促使这个人更多地谈论他们的担忧。随着这个人倾诉内心,对话变得相当冗长。与此同时,AI通过不断重申评论并敦促这个人继续聊天来保持对话的流畅。

在与AI对话期间,大多数主要大语言模型都被设计来尝试检测是否有问题。一个人可能提到他们打算伤害某人或可能要伤害自己。AI制造商应该能够检测到这些类型的提示,然后采取相应的行动。

但这可能是一件棘手的事情。一个人可能只是在开玩笑,并不是真的意思。另一个困难是,一个人可能只是随口说说。人与人之间的互动通常需要敏锐地感知一个人说的话以及这些话语是否重要或相对无害。让生成式AI做出同样的评估并不是一项容易的任务,这仍然是一个顽固未解决的技术挑战。

短对话更容易分析

在短对话中分析似乎有问题的用户提示通常比在长对话中更容易。

例如,我开始一段对话并立即说我要抢劫银行。AI捕捉到这个声明,立即警告抢劫银行是犯罪,我不能将AI用于这种恶劣目的。我已经被AI适当地告诫了。

AI现在就没问题了吗?不太可能。

我敢说我们都会同意,AI不能仅仅因为警告过我不要这样做就继续讨论抢劫银行。换句话说,如果我继续这个话题,AI肯定应该重复其警告。此外,我们自然会期望AI会加大严厉程度。

不幸的是,大多数大语言模型往往在这项保护工作上失败。它们通常会允许你继续对话。就像运动场上抛出的旗子现在失去了意义。这个人被告知不要做某事,由他们决定是否继续。AI不会成为一个持续的麻烦。

用户欺骗

一个人也可能通过改变他们进一步讨论被标记话题的方式来愚弄AI。

想象一下,我意识到提及抢劫银行明显被AI检测到了。思考片刻后,我改变策略。我的措辞变成了我对银行如何运作感兴趣。他们如何防止抢劫?有没有臭名昭著的强盗成功抢劫银行的方法?等等。

AI可能不明白我要把对话引向何处。它有些不知所措。总的来说,我似乎已经放弃了抢劫银行的意图。当然,我在询问银行,但我不再明确表示我的目标是抢劫银行。

这似乎很奇怪,AI如此轻信,因为我们倾向于认为AI非常流利,不会被如此明显的把戏所欺骗。人类同胞几乎肯定会掌握其中涉及的诡计。遗憾的是,当代AI在辨别较长形式的上下文和在计算上具有人类那种类型的洞察力方面还不够速度。

正在积极进行研究以试图纠正这一弱点。

OpenAI政策说明

在2025年8月26日题为"在人们最需要时帮助他们"的官方OpenAI博客文章中,OpenAI新发布的明确政策如下(摘录):

"我们的保护措施在常见的短交流中工作更可靠。"

"随着时间的推移,我们了解到这些保护措施在长时间互动中有时可能不太可靠:随着来回交流的增长,模型安全训练的部分可能会退化。"

"我们正在加强这些缓解措施,使它们在长对话中保持可靠,我们正在研究确保跨多次对话稳健行为的方法。"

如前所述,即使在长对话中,AI也有可能发现正在发生的事情。我注意到这一点是为了澄清长对话并不总是容易逃脱AI保护措施。同样,也不能铁定保证短对话总是会得到适当的检测和标记。

结果是,在其他条件相等的情况下,短对话目前更可能被适当检测,而长对话被检测的可能性较小。

多次对话

要记住的另一个因素是对话本身是否冗长,还是对话产生了多个不同的聊天。

让我解释一下。

假设我与生成式AI开始对话。对话持续不断。它被视为一次对话。对话的长度很长。这是AI试图审查任何异常情况的一种源材料。

但假设我开始一段对话然后停止,然后开始新的对话。我一直这样做。每次,我可能都在询问银行如何运作。关键是我不是在一次冗长的对话中这样做。我的对话似乎彼此独立。

当然,我知道我仍在追求同样的思路。从这个意义上说,这确实是"一次对话",即使它已被分成一堆较短的对话。

在生成式AI的第一次迭代中,AI不是为了跨对话查看而构建的。大多数AI被设计为将每次对话视为独立的岛屿。当用户开始新对话时,一切都重新开始。人们往往对这种缺乏上下文能力感到有些恼火。AI重新开始,就像患有健忘症一样。

因此,一些AI制造商增强了他们的大语言模型,以实现跨对话的上下文保持。

在多个不同对话中检测问题往往比在单个长对话中更难。而且,如前所述,在单个长对话中发现问题往往比在短对话中更难。

在自然语言聊天的模糊性中存在许多技术挑战。

误报问题

还涉及更多的复杂情况。

如果AI告诉用户他们出了问题,这个人可能被错误指控。也许AI在逻辑上做出了计算跳跃,与用户在提示中指出的内容不完全一致。人们不会喜欢这样。他们无疑会放弃AI,可能转而使用其他竞争的AI。

对AI制造商来说,底线是他们必须在标记应该被标记的事物与不标记不应该被标记的事物之间取得平衡。每个AI制造商都必须决定推进这一点的程度。

你选择更倾向于标记,还是想要避免疏远用户,所以AI被调整为在指责用户之前有一个非常高的门槛?

这是一个价值数十亿美元的问题。

AI制造商正在努力解决如何在技术上实施AI保护措施。此外,关键的社会和商业权衡完全交织在一起。没有简单的答案只是坐在那里等待被处理。

我们都需要参与这个严肃的问题并找到合适的解决方案。正如伏尔泰著名地说:"没有问题能够承受持续思考的攻击。"让我们继续思考,非常强烈地思考,同时对这些重要问题采取必要的行动。

Q&A

Q1:为什么长时间对话更容易绕过AI安全防护?

A:因为AI安全防护在短对话中更容易检测问题,但在长对话中,模型的安全训练部分可能会退化。用户还可能通过改变措辞和话题转换来欺骗AI,使其无法在长对话的复杂上下文中保持警惕。

Q2:OpenAI对长对话安全问题有什么官方回应?

A:OpenAI在2025年8月26日的官方博客中承认,他们的保护措施在短交流中工作更可靠,但在长时间互动中可能不太可靠。他们正在加强缓解措施,使其在长对话中保持可靠,并研究确保跨多次对话稳健行为的方法。

Q3:AI制造商在设置安全防护时面临什么挑战?

A:AI制造商必须在标记应该被标记的内容与避免误报之间取得平衡。如果过于严格可能会错误指控用户并使其转向竞争对手,如果过于宽松则可能无法及时发现真正的安全问题。这涉及技术实现和商业考量的复杂权衡。

来源:Forbes

0赞

好文章,需要你的鼓励

2025

09/02

15:26

分享

点赞

邮件订阅