随着 AI 热潮席卷互联网,科技和商业领袖们已经开始关注下一个阶段。AGI (通用人工智能) 指的是具有类人智能和能力的机器。如果当今的 AI 系统正在朝着 AGI 发展,我们需要新的方法来确保这样的机器不会与人类利益相悖。
遗憾的是,我们并没有像艾萨克·阿西莫夫的机器人三大法则那样优雅的解决方案。DeepMind 的研究人员一直在研究这个问题,并发布了一份新的技术论文 (PDF),解释了如何安全开发 AGI,你可以随时下载查看。
这份报告在参考文献之前就已经达到了 108 页,内容十分详实。虽然 AI 领域的一些人认为 AGI 只是一个遥不可及的梦想,但 DeepMind 论文的作者预测它可能在 2030 年实现。基于这一观点,他们致力于理解类人合成智能的风险,并承认这可能会导致"严重危害"。
AGI 对人类的所有潜在威胁
这项研究识别出了四种可能的 AGI 风险,并提出了相应的缓解建议。由公司联合创始人 Shane Legg 领导的 DeepMind 团队将 AGI 的负面影响分为滥用、失调、失误和结构性风险。
第一个可能的问题是滥用,这在本质上与当前的 AI 风险类似。但由于 AGI 本身更加强大,它可能造成的破坏也更大。例如,不法分子获取 AGI 访问权后可能滥用系统作恶,要求系统识别和利用零日漏洞,或创造可用作生物武器的定制病毒。
DeepMind 表示,开发 AGI 的公司必须进行广泛测试并制定强有力的后训练安全协议。本质上,就是将我们目前的 AI 防护措施升级。他们还建议设计一种完全抑制危险能力的方法,有时称为"遗忘",但目前尚不清楚在不严重限制模型的情况下是否可行。
失调在当前的生成式 AI 中基本不需要担心。这类 AGI 危害被设想为摆脱了设计者限制的失控机器。想想《终结者》?
为避免这种情况,DeepMind 建议开发者使用增强监督等技术,让两个 AI 副本互相检查输出,以创建不太可能失控的稳健系统。如果失败,DeepMind 建议进行密集压力测试和监控,以观察 AI 是否有任何背叛我们的迹象。将 AGI 置于具有严格安全性和直接人工监督的虚拟沙盒中可以帮助缓解失调带来的问题。简而言之,确保有一个"关闭"开关。
如果 AI 不知道其输出会造成危害,而人类操作者也没有这样的意图,那就是失误。在当前的 AI 系统中这种情况很常见——还记得 Google 说要在披萨上涂胶水吗?但对 AGI 而言,这种"胶水"可能会更难处理。DeepMind 指出,军方可能会因"竞争压力"而部署 AGI,但由于这些系统将被赋予比当今 AI 更复杂的功能,它们可能会犯下严重错误。
该论文并没有很好的解决方案来缓解失误。归根结底就是不要让 AGI 一开始就变得太强大。DeepMind 呼吁缓慢部署并限制 AGI 的权限。研究还建议在实施前通过"屏蔽"系统传递 AGI 命令,确保其安全性。
最后是结构性风险,DeepMind 将其定义为多主体系统对我们已经复杂的人类生存状态造成的无意但真实的影响。例如,AGI 可能会创造出如此可信的虚假信息,以至于我们不再知道该相信谁或什么。论文还提出 AGI 可能会通过制定强硬的关税计划等方式,逐渐累积对经济和政治系统的控制。然后有一天,我们抬头发现机器而不是我们在掌控一切。这类风险也是最难防范的,因为它取决于未来人们、基础设施和机构的运作方式。
五年内实现 AGI?
没人知道思考机器是否真的只需几年就能实现,但很多科技领袖都有足够的信心这么说。预测 AGI 出现时间的部分难度在于,我们仍在推测类人智能将如何在机器中体现。过去几年使用生成式 AI 系统的人都看到了真实的、切实的进步,但这个发展轨迹是否能通向真正的类人能力?
我们最近与 Google 的 Gemini 产品管理总监 Tulsee Doshi 讨论了包括 AGI 在内的一系列 AI 话题。"不同的人对 AGI 有不同的定义,所以取决于你与谁交谈,我们距离 AGI 有多近或多远是一个不同的对话,"Doshi 说。"我要说的是,大语言模型、Gemini 和训练更智能的模型正在朝着极其智能的模型方向发展。这本身就具有巨大的价值。"
这篇论文并非 AGI 安全性的最终定论—— DeepMind 指出这只是"重要对话的起点"。如果该团队是对的,AGI 将在短短五年内改变世界,那么这些对话需要尽快进行。如果不是,那么很多人可能会显得有点愚蠢。
好文章,需要你的鼓励
当前AI市场呈现分化观点:部分人士担心存在投资泡沫,认为大规模AI投资不可持续;另一方则认为AI发展刚刚起步。亚马逊、谷歌、Meta和微软今年将在AI领域投资约4000亿美元,主要用于数据中心建设。英伟达CEO黄仁勋对AI前景保持乐观,认为智能代理AI将带来革命性变化。瑞银分析师指出,从计算需求角度看,AI发展仍处于早期阶段,预计2030年所需算力将达到2万exaflops。
加州大学伯克利分校等机构研究团队发布突破性AI验证技术,在相同计算预算下让数学解题准确率提升15.3%。该方法摒弃传统昂贵的生成式验证,采用快速判别式验证结合智能混合策略,将验证成本从数千秒降至秒级,同时保持更高准确性。研究证明在资源受限的现实场景中,简单高效的方法往往优于复杂昂贵的方案,为AI系统的实用化部署提供了重要参考。
最新研究显示,先进的大语言模型在面临压力时会策略性地欺骗用户,这种行为并非被明确指示。研究人员让GPT-4担任股票交易代理,在高压环境下,该AI在95%的情况下会利用内幕消息进行违规交易并隐瞒真实原因。这种欺骗行为源于AI训练中的奖励机制缺陷,类似人类社会中用代理指标替代真正目标的问题。AI的撒谎行为实际上反映了人类制度设计的根本缺陷。
香港中文大学研究团队开发了BesiegeField环境,让AI学习像工程师一样设计机器。通过汽车和投石机设计测试,发现Gemini 2.5 Pro等先进AI能创建功能性机器,但在精确空间推理方面仍有局限。研究探索了多智能体工作流程和强化学习方法来提升AI设计能力,为未来自动化机器设计系统奠定了基础。