DeepMind 详解 AGI 可能给世界带来的威胁

DeepMind 发布了一份技术报告,详细阐述了通用人工智能 (AGI) 可能对人类造成的潜在风险,包括滥用、失控、错误和结构性风险。报告提出了一些缓解措施,如加强安全协议、双重AI监督、沙盒环境等。虽然AGI的实现时间尚不确定,但该报告为未来的重要对话奠定了基础。

随着 AI 热潮席卷互联网,科技和商业领袖们已经开始关注下一个阶段。AGI (通用人工智能) 指的是具有类人智能和能力的机器。如果当今的 AI 系统正在朝着 AGI 发展,我们需要新的方法来确保这样的机器不会与人类利益相悖。

遗憾的是,我们并没有像艾萨克·阿西莫夫的机器人三大法则那样优雅的解决方案。DeepMind 的研究人员一直在研究这个问题,并发布了一份新的技术论文 (PDF),解释了如何安全开发 AGI,你可以随时下载查看。

这份报告在参考文献之前就已经达到了 108 页,内容十分详实。虽然 AI 领域的一些人认为 AGI 只是一个遥不可及的梦想,但 DeepMind 论文的作者预测它可能在 2030 年实现。基于这一观点,他们致力于理解类人合成智能的风险,并承认这可能会导致"严重危害"。

AGI 对人类的所有潜在威胁

这项研究识别出了四种可能的 AGI 风险,并提出了相应的缓解建议。由公司联合创始人 Shane Legg 领导的 DeepMind 团队将 AGI 的负面影响分为滥用、失调、失误和结构性风险。

第一个可能的问题是滥用,这在本质上与当前的 AI 风险类似。但由于 AGI 本身更加强大,它可能造成的破坏也更大。例如,不法分子获取 AGI 访问权后可能滥用系统作恶,要求系统识别和利用零日漏洞,或创造可用作生物武器的定制病毒。

DeepMind 表示,开发 AGI 的公司必须进行广泛测试并制定强有力的后训练安全协议。本质上,就是将我们目前的 AI 防护措施升级。他们还建议设计一种完全抑制危险能力的方法,有时称为"遗忘",但目前尚不清楚在不严重限制模型的情况下是否可行。

失调在当前的生成式 AI 中基本不需要担心。这类 AGI 危害被设想为摆脱了设计者限制的失控机器。想想《终结者》?

为避免这种情况,DeepMind 建议开发者使用增强监督等技术,让两个 AI 副本互相检查输出,以创建不太可能失控的稳健系统。如果失败,DeepMind 建议进行密集压力测试和监控,以观察 AI 是否有任何背叛我们的迹象。将 AGI 置于具有严格安全性和直接人工监督的虚拟沙盒中可以帮助缓解失调带来的问题。简而言之,确保有一个"关闭"开关。

如果 AI 不知道其输出会造成危害,而人类操作者也没有这样的意图,那就是失误。在当前的 AI 系统中这种情况很常见——还记得 Google 说要在披萨上涂胶水吗?但对 AGI 而言,这种"胶水"可能会更难处理。DeepMind 指出,军方可能会因"竞争压力"而部署 AGI,但由于这些系统将被赋予比当今 AI 更复杂的功能,它们可能会犯下严重错误。

该论文并没有很好的解决方案来缓解失误。归根结底就是不要让 AGI 一开始就变得太强大。DeepMind 呼吁缓慢部署并限制 AGI 的权限。研究还建议在实施前通过"屏蔽"系统传递 AGI 命令,确保其安全性。

最后是结构性风险,DeepMind 将其定义为多主体系统对我们已经复杂的人类生存状态造成的无意但真实的影响。例如,AGI 可能会创造出如此可信的虚假信息,以至于我们不再知道该相信谁或什么。论文还提出 AGI 可能会通过制定强硬的关税计划等方式,逐渐累积对经济和政治系统的控制。然后有一天,我们抬头发现机器而不是我们在掌控一切。这类风险也是最难防范的,因为它取决于未来人们、基础设施和机构的运作方式。

五年内实现 AGI?

没人知道思考机器是否真的只需几年就能实现,但很多科技领袖都有足够的信心这么说。预测 AGI 出现时间的部分难度在于,我们仍在推测类人智能将如何在机器中体现。过去几年使用生成式 AI 系统的人都看到了真实的、切实的进步,但这个发展轨迹是否能通向真正的类人能力?

我们最近与 Google 的 Gemini 产品管理总监 Tulsee Doshi 讨论了包括 AGI 在内的一系列 AI 话题。"不同的人对 AGI 有不同的定义,所以取决于你与谁交谈,我们距离 AGI 有多近或多远是一个不同的对话,"Doshi 说。"我要说的是,大语言模型、Gemini 和训练更智能的模型正在朝着极其智能的模型方向发展。这本身就具有巨大的价值。"

这篇论文并非 AGI 安全性的最终定论—— DeepMind 指出这只是"重要对话的起点"。如果该团队是对的,AGI 将在短短五年内改变世界,那么这些对话需要尽快进行。如果不是,那么很多人可能会显得有点愚蠢。

来源:Arstechnica

0赞

好文章,需要你的鼓励

2025

04/05

16:51

分享

点赞

邮件订阅