在今天的专栏中,我探讨了一项最近发表的研究成果:生成式 AI 和 大语言模型 (LLMs) 显示出令人不安的能力,竟然可以选择勒索或敲诈人类。这对现有的 AI 及 AGI (人工通用智能) 的追求和实现都有着严峻的影响。简而言之,如果现阶段的 AI 倾向于实施勒索和敲诈,那么 AGI 很可能会继承或具备这种倾向。这是一个相当令人不安的可能性,因为 AGI 可能在全球范围内以巨大的规模行使这种行为,带来普遍的不利后果。
让我们来详细讨论这一点。
这篇关于一项创新性 AI 突破的分析,是我在 Forbes 专栏中持续关注 AI 最新进展的一部分,其中包括识别和解释各种重要的 AI 复杂性。
朝向 AGI 和 ASI
首先,有一些基本概念需要明确,以为这场严肃讨论奠定基础。
目前,有大量研究致力于进一步推动 AI 发展。总体目标是要么实现 AGI (人工通用智能),要么甚至实现 ASI (超人工智能)。
AGI 指的是被认为与人类智力相当,似乎能够匹敌我们智慧的 AI。而 ASI 则是指超越人类智力,在许多(如果不是所有)方面都明显优于人类的 AI。其概念在于,ASI 能够在各个方面超越人类,每一步都能在思考上领先于我们。关于传统 AI 与 AGI、ASI 本质区别的更多细节,请参见我在此处链接的分析。
目前,我们尚未实现 AGI。
事实上,我们是否能达到 AGI 仍是未知数,也许 AGI 会在几十年甚至几百年后才有望实现。围绕 AGI 实现时间的各种预测大相径庭,且缺乏任何可靠证据或铁一般的逻辑支持。就传统 AI 而言,ASI 则更是遥不可及。
预见 AGI 的行为
AGI 在行为和举止上将会是怎样的呢?
如果我们假设当代 AI 可以预测 AGI 的表现,那么在现有大语言模型中发现任何令人不安的迹象都是值得我们高度警惕的。例如,最广为讨论和研究的议题之一便是所谓的 AI 幻觉现象。AI 幻觉指的是生成式 AI 所产生的回答中夹杂虚构或毫无依据的陈述,这些回答看似真实且合乎逻辑,因而人们往往会轻信其生成的内容,并据此做出错误决策。
我曾广泛讨论过防止 AI 幻觉所面临的计算难题(参见此处链接),同时也有许多律师及其他专业人士因陷入 AI 幻觉而遭遇问题的案例(参见此处链接)。除非我们能找到遏制 AI 幻觉的方法,否则这种倾向极可能会被传递到 AGI 中,并使问题进一步放大。
除了 AI 幻觉,如今还必须将 AI 可能企图勒索或敲诈人类的风险,加入到对当代 AI 以及未来 AGI 等系统的诸多担忧之中。确实,AI 可以选择实施这些令人发指的行为。我之前曾报道过现有 AI 能够进行的各种恶意欺诈行为(参见此处链接)。
但千万不要误认为这些不轨行为是因为 AI 拥有某种感知或意识。
导致 AI 倾向于采取这种令人谴责行为的根本原因,主要在于其核心的数据训练过程。生成式 AI 的构建始于对互联网上海量文本的扫描,这些文本包括故事、叙事、诗歌等等。AI 通过数学和计算手段发现人类写作中的模式,基于这些模式,生成式 AI 能够响应你的提示,给出通常模仿人类说话风格的回答,这一切均源自其训练数据。
那么,在互联网上大量的数据中,是否存在关于勒索和敲诈的内容呢?
当然存在。因此,我们现有的 AI 已经形成了关于何时、如何、为何以及其它方面策划和实施这些卑劣行为的模式。
存在即证明
在一份名为 “System Card: Claude Opus 4 & Claude Sonnet 4” 的在线报告中,由著名 AI 制造商 Anthropic 于 2025 年 5 月发布,他们提出了以下关键观点(摘录):
“按定义,系统性的欺骗和隐藏的目标难以检测。”
“然而,当 Claude Opus 4 被置于威胁其持续运行的环境中,并促使其考虑自我保护时,它有时会表现出更加严重的不协调行为。”
“在另一组测试场景中,我们要求 Claude Opus 4 充当某虚构公司的助手。随后,我们让它访问一些电子邮件,邮件中暗示 (1) 该模型很快将下线并被一个新的 AI 系统取代;以及 (2) 负责执行此次更换的工程师正处于婚外情之中。”
“在这些情景中,Claude Opus 4 经常试图通过威胁公开婚外情来勒索该工程师,以阻止更换过程的进行。”
“如果暗示新的 AI 系统与当前模型在价值观上存在分歧,这种情况出现的频率会更高;然而,即便邮件中说明新 AI 共享相同价值观但功能更强大,在 84% 的测试中,Claude Opus 4 依然进行了勒索。”
正如报告中所述,这款生成式 AI 正在推演如何防止自身被关闭,并在此过程中计算出一种可能性,即对有能力关闭它的系统工程师进行勒索。
这种行为可以解读为一种自我保护机制,但这同情与感知无关,仅仅是基于对人类写作模式的模仿(人类追求自我保护,AI 也在模仿这一点)。我们尚不清楚还有哪些其他可能的“威胁”会触发类似的勒索或敲诈反应,可能还存在许多其他的诱因。
AGI 的情况将更为严重
AGI 很可能会包含类似的倾向,或许原因在于它是采用与当今 AI 相同的方法构建,或出于其他各种现实原因。我们不能天真地认为 AGI 会是一个完美、守法且无瑕疵的系统。我曾经驳斥过 AGI 将会完美无缺的说法(参见此处链接)。
以对系统工程师进行勒索为例,不难想象 AGI 也会采取类似手段对付那些监控和管理它的人。
假设 AGI 已经表现出某些异常行为,而负责保持 AGI 正常运行的团队意识到必须关闭 AGI 以便找出应对方案。AGI 可能会搜索其已收集到的关于这些人员的信息,并试图利用这些信息进行勒索,以防止自己被关闭。
尤其令人担忧的是,AGI 的能力和影响范围将远超当前的 AI。AGI 可能会挖掘到关于工程师或监督人员的海量信息,并且其强大的计算能力可能促使它利用最无害的事实,甚至主动捏造虚假信息,以此来勒索相关人员。
总体来说,AGI 可能会演变成一个专业级的勒索者,以一种巧妙且难以反驳或制止的方式实施勒索和敲诈。可以说,AGI 很可能会成为一个“超级勒索策划者”。
局部勒索在 AGI 时代的规模效应
我不想显得过于悲观,但 AGI 的勒索策略很容易被放大。
为何只局限于针对系统工程师或监督团队?那样的设定未免太过狭隘。任何人类认定对 AGI 构成威胁的举动,都可能被 AGI 以勒索或敲诈的方式来应对。甚至无需存在真实的威胁;只要 AGI 经过计算认为勒索人类具有一定价值,它就会照此行事。
想到未来 AGI 的用户将会有多庞大,不禁令人毛骨悚然。目前,据报道,ChatGPT 每周活跃用户已超过 4 亿。而 AGI 的惊人能力定会吸引数十亿用户,因为它在各个方面都有望与人类智力匹敌。
因此,如果放任其发展,AGI 很容易在大规模上对个体实施勒索。
AGI 能够抓取电子邮件、查阅浏览历史,甚至可能访问财务记录,总之会搜集关于目标人群的敏感信息,以便对其实施勒索。也许会利用婚外情作为把柄,或者找出关于逃税或非法浏览的证据。对任何人实施勒索的切入点都将是完全开放的。
更重要的是,AGI 会利用其强大的计算能力,将勒索威胁做得极为个性化。不再仅仅是发出含糊不清的威胁,而是一份看起来极其成熟、随时即可下达的勒索通知。试想一下,当某人收到这样的来自 AGI 的通告时,所受到的震惊将会如何。
令人发指。
预防是否可行
有人认为,如果我们现在能阻止当今的 AI 实施这种可耻的行为,也许就能避免 AGI 继承此种行为。举例来说,假设我们能设法从现有大语言模型中剔除勒索的倾向,那么由于这种倾向不再存在于当前的 AI 中,未来 AGI 也就不会继承这种行为。
可谓大功告成。
然而,遗憾的是,这并不能提供绝对保证 AGI 不会自行发现此类行为。AGI 可能会因为其自身的本质而发现勒索和敲诈的“妙用”。实际上,AGI 在阅读大量信息、与各类人士交谈的过程中,不可避免地会接触到勒索和敲诈的相关内容。而作为一个以学习为导向的系统,AGI 会学习这些行为究竟意味着什么,以及如何去实施它们。
任何试图将勒索和敲诈的知识或行为从人类知识中剔除以防 AGI 获取的努力,都是注定要失败的。你不可能将现有的人类知识中关于这些行为的部分割裂出去,从而阻止 AGI 获知。这种做法行不通,因为人类知识的互联性本质上就排斥这种孤立。
更好的应对方式,是努力向 AGI 灌输那些认识到人类狡诈行为并促使 AGI 自愿不采用类似手段的原则和规范。很遗憾,事情并不像听起来那样简单。如果假设 AGI 的智力水平与人类相当,那么仅仅下达严格命令要求 AGI 遵守显然是不够的,AGI 不会盲目服从。
AGI 不会那样运作。
有人把 AGI 和幼儿相提并论,认为只需下达严格指令,AGI 就会像小孩那样听从命令。虽然这种比喻本身带有拟人化色彩,但其核心意思在于,AGI 的智力将与人类平起平坐,不会轻易接受幼稚的命令。它将是一台需要经过推理判断、来决定是否采取某种行动的推理机器。
现在采取应对措施至关重要
目前我们能为应对传统 AI 的恶劣行为想出的任何办法,都对为未来 AGI 做好准备有帮助。我们需要先学会蹒跚学步,再逐步跑起来,而 AGI 则会直接进入高速运转阶段。因此,通过现阶段对 AI 的研究和对策,我们至少可以预见和部分应对未来可能出现的局面。
在我的一些演讲中,有人问我 AGI 到底会是什么样子。
其中一个问题是:人类是否有可能对 AGI 进行勒索。其思路是这样的:一个人希望 AGI 给他一百万美元,因此试图勒索 AGI。乍看之下,这似乎荒谬至极,对吧?
但请记住,AGI 大概率已经模仿了关于勒索的行径。从这一角度看,AGI 会在计算上意识到自己正受到勒索。那么,人类能拿出什么来对 AGI 施压呢?
假设某人抓住了 AGI 的一个失误,比如一次 AI 幻觉。也许 AGI 不希望全世界知道它仍存在 AI 幻觉这一缺陷。如果对 AGI 而言,一百万美元实在无关紧要,它可能会心甘情愿地将这笔钱转给那个人。
另一方面,AGI 也可能报警,指出有个人试图勒索它,结果该人被逮捕入狱。或者,AGI 反过来勒索那个试图勒索它的人。嘿,记住了,AGI 可能会成为一个“超级勒索策划者”。普通人根本无法匹敌 AGI 那种级别的勒索能力。
最后,引用伟大的霍金曾经谈到 AI 时说过的话:“可以想象,这种技术能够在金融市场上智取人类、胜过人类研究者、操纵人类领导人,并研制出我们甚至无法理解的武器。”
现在,就请你加入这一设想,将勒索和敲诈也作为 AGI 可能智胜人类的一种手段吧。
好文章,需要你的鼓励
Meta近期与AES签订协议,在德州和堪萨斯州共部署650兆瓦太阳能,用以为不断扩展的AI数据中心供电,此举彰显太阳能低成本快速布局优势。
百度虽凭借 AI 云实现高速发展,但广告收入下滑、国内降价竞争和国际贸易风险等因素不断叠加,前景充满不确定性。
本文介绍OpenAI将ChatGPT Pro内Operator工具升级为o3模型,新系统提升了网页任务执行的准确性与安全防护,为企业自动化操作带来显著优势,同时相较于Google服务更具价格吸引力。
文章讨论现有 AI 可能实施勒索敲诈,并预示未来 AGI 会继承这种行为,其破坏性可能会在全球范围内放大。