随着 AI 热潮席卷互联网,科技和商业领袖们已经开始关注下一个阶段。AGI (通用人工智能) 指的是具有类人智能和能力的机器。如果当今的 AI 系统正在朝着 AGI 发展,我们需要新的方法来确保这样的机器不会与人类利益相悖。
遗憾的是,我们并没有像艾萨克·阿西莫夫的机器人三大法则那样优雅的解决方案。DeepMind 的研究人员一直在研究这个问题,并发布了一份新的技术论文 (PDF),解释了如何安全开发 AGI,你可以随时下载查看。
这份报告在参考文献之前就已经达到了 108 页,内容十分详实。虽然 AI 领域的一些人认为 AGI 只是一个遥不可及的梦想,但 DeepMind 论文的作者预测它可能在 2030 年实现。基于这一观点,他们致力于理解类人合成智能的风险,并承认这可能会导致"严重危害"。
AGI 对人类的所有潜在威胁
这项研究识别出了四种可能的 AGI 风险,并提出了相应的缓解建议。由公司联合创始人 Shane Legg 领导的 DeepMind 团队将 AGI 的负面影响分为滥用、失调、失误和结构性风险。
第一个可能的问题是滥用,这在本质上与当前的 AI 风险类似。但由于 AGI 本身更加强大,它可能造成的破坏也更大。例如,不法分子获取 AGI 访问权后可能滥用系统作恶,要求系统识别和利用零日漏洞,或创造可用作生物武器的定制病毒。
DeepMind 表示,开发 AGI 的公司必须进行广泛测试并制定强有力的后训练安全协议。本质上,就是将我们目前的 AI 防护措施升级。他们还建议设计一种完全抑制危险能力的方法,有时称为"遗忘",但目前尚不清楚在不严重限制模型的情况下是否可行。
失调在当前的生成式 AI 中基本不需要担心。这类 AGI 危害被设想为摆脱了设计者限制的失控机器。想想《终结者》?
为避免这种情况,DeepMind 建议开发者使用增强监督等技术,让两个 AI 副本互相检查输出,以创建不太可能失控的稳健系统。如果失败,DeepMind 建议进行密集压力测试和监控,以观察 AI 是否有任何背叛我们的迹象。将 AGI 置于具有严格安全性和直接人工监督的虚拟沙盒中可以帮助缓解失调带来的问题。简而言之,确保有一个"关闭"开关。
如果 AI 不知道其输出会造成危害,而人类操作者也没有这样的意图,那就是失误。在当前的 AI 系统中这种情况很常见——还记得 Google 说要在披萨上涂胶水吗?但对 AGI 而言,这种"胶水"可能会更难处理。DeepMind 指出,军方可能会因"竞争压力"而部署 AGI,但由于这些系统将被赋予比当今 AI 更复杂的功能,它们可能会犯下严重错误。
该论文并没有很好的解决方案来缓解失误。归根结底就是不要让 AGI 一开始就变得太强大。DeepMind 呼吁缓慢部署并限制 AGI 的权限。研究还建议在实施前通过"屏蔽"系统传递 AGI 命令,确保其安全性。
最后是结构性风险,DeepMind 将其定义为多主体系统对我们已经复杂的人类生存状态造成的无意但真实的影响。例如,AGI 可能会创造出如此可信的虚假信息,以至于我们不再知道该相信谁或什么。论文还提出 AGI 可能会通过制定强硬的关税计划等方式,逐渐累积对经济和政治系统的控制。然后有一天,我们抬头发现机器而不是我们在掌控一切。这类风险也是最难防范的,因为它取决于未来人们、基础设施和机构的运作方式。
五年内实现 AGI?
没人知道思考机器是否真的只需几年就能实现,但很多科技领袖都有足够的信心这么说。预测 AGI 出现时间的部分难度在于,我们仍在推测类人智能将如何在机器中体现。过去几年使用生成式 AI 系统的人都看到了真实的、切实的进步,但这个发展轨迹是否能通向真正的类人能力?
我们最近与 Google 的 Gemini 产品管理总监 Tulsee Doshi 讨论了包括 AGI 在内的一系列 AI 话题。"不同的人对 AGI 有不同的定义,所以取决于你与谁交谈,我们距离 AGI 有多近或多远是一个不同的对话,"Doshi 说。"我要说的是,大语言模型、Gemini 和训练更智能的模型正在朝着极其智能的模型方向发展。这本身就具有巨大的价值。"
这篇论文并非 AGI 安全性的最终定论—— DeepMind 指出这只是"重要对话的起点"。如果该团队是对的,AGI 将在短短五年内改变世界,那么这些对话需要尽快进行。如果不是,那么很多人可能会显得有点愚蠢。
好文章,需要你的鼓励
很多人担心被AI取代,陷入无意义感。按照杨元庆的思路,其实无论是模型的打造者,还是模型的使用者,都不该把AI放在人的对立面。
MIT研究团队提出递归语言模型(RLM),通过将长文本存储在外部编程环境中,让AI能够编写代码来探索和分解文本,并递归调用自身处理子任务。该方法成功处理了比传统模型大两个数量级的文本长度,在多项长文本任务上显著优于现有方法,同时保持了相当的成本效率,为AI处理超长文本提供了全新解决方案。
谷歌宣布对Gmail进行重大升级,全面集成Gemini AI功能,将其转变为"个人主动式收件箱助手"。新功能包括AI收件箱视图,可按优先级自动分组邮件;"帮我快速了解"功能提供邮件活动摘要;扩展"帮我写邮件"工具至所有用户;支持复杂问题查询如"我的航班何时降落"。部分功能免费提供,高级功能需付费订阅。谷歌强调用户数据安全,邮件内容不会用于训练公共AI模型。
华为研究团队推出SWE-Lego框架,通过混合数据集、改进监督学习和测试时扩展三大创新,让8B参数AI模型在代码自动修复任务上击败32B对手。该系统在SWE-bench Verified测试中达到42.2%成功率,加上扩展技术后提升至49.6%,证明了精巧方法设计胜过简单规模扩展的技术理念。