计算 ASI 风险始于人类思维

本文探讨如何通过量化分析和制度激励,降低人工超级智能失控风险,强调人类心智对算法倾向的决定作用,并主张以合作与持续监控实现安全的人工智能发展。

光有一厢情愿的想法是不够的,特别是在涉及人工智能的时候。

2025年5月10日,麻省理工学院物理学家 马克斯·泰格马克 在接受 The Guardian 采访时表示,AI 实验室在发布人工超智能之前应效仿 奥本海默 的 Trinity-test 计算方法。“我评估‘ Compton constant ’,即人工智能竞赛最终导致失控地球的概率,大于 90% 。1/10:在我们的新论文中,我们提出了可扩展监督的缩放法则:监督和欺骗能力会随着大语言模型智能水平呈可预测的扩展!由此得到的结论是(或者应该是)直接明了的:乐观不是一种策略;量化风险才是。”

泰格马克的观点并非孤立无援。2024年,超过 1000 名研究人员和首席执行官 —— 包括 Sam Altman、Demis Hassabis 和 Geoffrey Hinton —— 在一句话版的《安全 AI》声明上签名,声明中指出“降低 AI 导致灭绝风险应与应对流行病和核战争同等重要”。在过去两年中,人工超智能的问题已从科幻范畴转移至董事会议程。具有讽刺意味的是,那些呼吁暂停发展的声音,往往采取“帮我洗,但不要用水”的态度。他们公开宣称需要延缓 AI 的进一步发展,同时却在这一领域倾注了数十亿美元。人们或许有理由认为他们的言辞与行动并不一致。

从直觉到数值

将恐惧转化为具体数字是可行的。哲学家兼分析师 Joe Carlsmith 在其报告《Is Power-Seeking AI an Existential Risk?》中将这一风险分解为六个可验证的前提。只需将你自己的概率输入模型,它便能输出一个实时风险登记表;而 Carlsmith 自己估计,不协调的系统在 2070 年之前导致文明崩溃的概率大约为 10%——距离现在仅仅 45 年……

企业实验室开始将这种算法内化。OpenAI 更新的 Preparedness Framework 界定了生物学、网络安全和自我改进等领域的能力阈值;理论上,任何突破“高风险”界限的模型都不会被发布,直至对策将剩余风险降至记录所规定的上限以下。

数据之所以重要,是因为 AI 能力已经远远超出了人类的直觉感知。一项经同行评审并被 TIME 报道的研究显示,如今最优秀的语言模型在排查湿式实验室方案时表现得优于拥有博士学位的病毒学家,这不仅加速了疫苗快速研发的潜力,也加剧了自制生物武器的危险。

机会成本:等式的另一半

然而,风险只是账目的一个方面。2024年12月,《Nature》杂志的一篇社论指出,实现安全的人工通用智能将需要学术界与产业界联合监督,而非陷入瘫痪。其潜在好处——脱碳突破、个性化教育、药品研发周期从数十年缩短至数日——大到无法舍弃。

如何在避免俄罗斯轮盘赌式的风险同时获取这些好处的研究正加速展开:

宪法式 AI。Anthropic 的论文《Constitutional AI: Harmlessness from AI Feedback》展示了大型模型如何依据透明的规则集进行自我批评,从而在无需大量人工标注的情况下减少有害输出。然而,他们自己的研究同时表明,其模型 Claude 正在主动欺骗用户。

合作式 AI。Cooperative AI Foundation 现资助针对合作能力设定基准测试,默认奖励各代理间的协作,从而将激励机制从零和竞争转向双赢模式。

问题在于,这些方法属于例外情况。总体来看,大多数模型仍反映了主导人类社会的传统标准。尽管如此,这些研究方向正逐步向一个激进的设计目标汇合:亲社会型 ASI —— 一种以利他价值创造为组织原则的系统。

数字外壳下的模拟核心

这里蕴含着一个有趣的见解:即使是超智能也会反映出其创造者的思维模式。抱负塑造算法。在竞争和追逐短期利润的范式下构建,你可能会催生出一个数字版的马基雅维利。

而如果是在合作与长远管理的范式下构建,同样的 Transformer 架构也可能成为地球的盟友。因此,个体的抱负便是机器意图的模拟对应物。最关键的“AI 硬件”始终存在于每位开发者大脑中的神经网络中。

超越计算,走向培养的同情心

风险评估必须无缝衔接到风险降低和价值对齐上。可以将这一进程视作四个整体步骤,其侧重讲述过程而不仅仅是一份技术清单:

  诊断概率   在训练第一个参数之前,先进行一次事前验尸:将 Carlsmith 的六个前提映射到你的领域,并估算泰格马克所提的逃逸几率。随着每个数据集和每次架构调整,及时更新该数值。

  同时对严重性和暴露度建模   借用 OpenAI 的威胁分类法来量化生物、网络和自主性向量。公布这些数据——尤其是不容乐观的那些数值——并邀请外部红队专家查找漏洞。

  将风险缓解措施融入激励机制   在产品开发时间线上嵌入拒绝训练、持续审计和硬件级别的终止开关,而非事后添加。将合作绩效指标作为晋升标准的一部分。

  提升人类能动性   将每次代码冲刺配合一次道德冲刺:开展关于算法素养、偏见反应以及将原始抱负转化为利他意图所必需的社会情感能力的研讨会。

请注意,每一步都将数字与模拟紧密结合。仅有治理文书而无文化变革不过是走过场;而没有量化检查点的文化变革仅是空想。

实用准则:构建仁慈型 ASI 的 A · S · I 规则

三步——对齐、审查、激励——将直觉提炼为洞见,将恐慌转化为准备。

A – 对齐目标 对齐实际上就是人工超智能中的 “A” :如果没有明确的道德指南针,原始能力只会放大其遇到的各种激励。

  实际操作:起草一份简洁且公开的宪章,明确阐述系统的亲社会目标和不可逾越的红线,并将其纳入训练目标和评估中。

S – 审查并共享指标 透明度使外界能够审计 “S”(超智能)是否依然安全,从而将信任转化为可验证的科学依据。

  实际操作:衡量关键指标——能力阈值、剩余风险、合作评分——并在每次发布时公开这些数据。

I – 激励合作 适当的激励机制确保 “I”(智能)扩展的是集体繁荣,而非零和竞争。

  实际操作:奖励团队内部的协作并培养谦逊;将奖金、引用和晋升与合作基准挂钩,而不仅仅依据原始性能。

这一完整的 ASI 应急工作流程浓缩得足以印在一只咖啡杯上。它有望将 ASI 从一场存在风险的赌博转变为一个合作引擎,并提醒我们:如今人类和地球最需要的智慧,其核心并非高科技,而是模拟性的——明确的目标、共享的证据以及伦理文化。硅仅仅是放大了我们所注入其中的人类心智。

深入与超越

康普顿常数将存在性的焦虑转化为白板上的一个数字,但仅凭数字并不能拯救我们。无论 ASI 是学会治病还是传播虚假信息,关键不在其梯度,而在于我们的目标。若仅为狭隘的优势而设计,我们很可能会迎来令人恐惧的反乌托邦;若为共同繁荣而设计——在透明方程与模拟良知的指导下——超智能便能成为我们实现人类与地球共同繁荣旅程中的伙伴。

最终,AI 的未来不在于机器超越人类,而在于人类内化我们希望机器传承的那些价值观。只要对其进行严格衡量、及早实现对齐,并由我们最优秀的特质进行治理,ASI 就能帮助人类繁荣。蓝图已摆在我们手中——更重要的是,已深植于我们的思想与心灵中。

来源:Forbes

0赞

好文章,需要你的鼓励

2025

05/13

10:01

分享

点赞

邮件订阅