光有一厢情愿的想法是不够的,特别是在涉及人工智能的时候。
2025年5月10日,麻省理工学院物理学家 马克斯·泰格马克 在接受 The Guardian 采访时表示,AI 实验室在发布人工超智能之前应效仿 奥本海默 的 Trinity-test 计算方法。“我评估‘ Compton constant ’,即人工智能竞赛最终导致失控地球的概率,大于 90% 。1/10:在我们的新论文中,我们提出了可扩展监督的缩放法则:监督和欺骗能力会随着大语言模型智能水平呈可预测的扩展!由此得到的结论是(或者应该是)直接明了的:乐观不是一种策略;量化风险才是。”
泰格马克的观点并非孤立无援。2024年,超过 1000 名研究人员和首席执行官 —— 包括 Sam Altman、Demis Hassabis 和 Geoffrey Hinton —— 在一句话版的《安全 AI》声明上签名,声明中指出“降低 AI 导致灭绝风险应与应对流行病和核战争同等重要”。在过去两年中,人工超智能的问题已从科幻范畴转移至董事会议程。具有讽刺意味的是,那些呼吁暂停发展的声音,往往采取“帮我洗,但不要用水”的态度。他们公开宣称需要延缓 AI 的进一步发展,同时却在这一领域倾注了数十亿美元。人们或许有理由认为他们的言辞与行动并不一致。
从直觉到数值
将恐惧转化为具体数字是可行的。哲学家兼分析师 Joe Carlsmith 在其报告《Is Power-Seeking AI an Existential Risk?》中将这一风险分解为六个可验证的前提。只需将你自己的概率输入模型,它便能输出一个实时风险登记表;而 Carlsmith 自己估计,不协调的系统在 2070 年之前导致文明崩溃的概率大约为 10%——距离现在仅仅 45 年……
企业实验室开始将这种算法内化。OpenAI 更新的 Preparedness Framework 界定了生物学、网络安全和自我改进等领域的能力阈值;理论上,任何突破“高风险”界限的模型都不会被发布,直至对策将剩余风险降至记录所规定的上限以下。
数据之所以重要,是因为 AI 能力已经远远超出了人类的直觉感知。一项经同行评审并被 TIME 报道的研究显示,如今最优秀的语言模型在排查湿式实验室方案时表现得优于拥有博士学位的病毒学家,这不仅加速了疫苗快速研发的潜力,也加剧了自制生物武器的危险。
机会成本:等式的另一半
然而,风险只是账目的一个方面。2024年12月,《Nature》杂志的一篇社论指出,实现安全的人工通用智能将需要学术界与产业界联合监督,而非陷入瘫痪。其潜在好处——脱碳突破、个性化教育、药品研发周期从数十年缩短至数日——大到无法舍弃。
如何在避免俄罗斯轮盘赌式的风险同时获取这些好处的研究正加速展开:
宪法式 AI。Anthropic 的论文《Constitutional AI: Harmlessness from AI Feedback》展示了大型模型如何依据透明的规则集进行自我批评,从而在无需大量人工标注的情况下减少有害输出。然而,他们自己的研究同时表明,其模型 Claude 正在主动欺骗用户。
合作式 AI。Cooperative AI Foundation 现资助针对合作能力设定基准测试,默认奖励各代理间的协作,从而将激励机制从零和竞争转向双赢模式。
问题在于,这些方法属于例外情况。总体来看,大多数模型仍反映了主导人类社会的传统标准。尽管如此,这些研究方向正逐步向一个激进的设计目标汇合:亲社会型 ASI —— 一种以利他价值创造为组织原则的系统。
数字外壳下的模拟核心
这里蕴含着一个有趣的见解:即使是超智能也会反映出其创造者的思维模式。抱负塑造算法。在竞争和追逐短期利润的范式下构建,你可能会催生出一个数字版的马基雅维利。
而如果是在合作与长远管理的范式下构建,同样的 Transformer 架构也可能成为地球的盟友。因此,个体的抱负便是机器意图的模拟对应物。最关键的“AI 硬件”始终存在于每位开发者大脑中的神经网络中。
超越计算,走向培养的同情心
风险评估必须无缝衔接到风险降低和价值对齐上。可以将这一进程视作四个整体步骤,其侧重讲述过程而不仅仅是一份技术清单:
诊断概率 在训练第一个参数之前,先进行一次事前验尸:将 Carlsmith 的六个前提映射到你的领域,并估算泰格马克所提的逃逸几率。随着每个数据集和每次架构调整,及时更新该数值。
同时对严重性和暴露度建模 借用 OpenAI 的威胁分类法来量化生物、网络和自主性向量。公布这些数据——尤其是不容乐观的那些数值——并邀请外部红队专家查找漏洞。
将风险缓解措施融入激励机制 在产品开发时间线上嵌入拒绝训练、持续审计和硬件级别的终止开关,而非事后添加。将合作绩效指标作为晋升标准的一部分。
提升人类能动性 将每次代码冲刺配合一次道德冲刺:开展关于算法素养、偏见反应以及将原始抱负转化为利他意图所必需的社会情感能力的研讨会。
请注意,每一步都将数字与模拟紧密结合。仅有治理文书而无文化变革不过是走过场;而没有量化检查点的文化变革仅是空想。
实用准则:构建仁慈型 ASI 的 A · S · I 规则
三步——对齐、审查、激励——将直觉提炼为洞见,将恐慌转化为准备。
A – 对齐目标 对齐实际上就是人工超智能中的 “A” :如果没有明确的道德指南针,原始能力只会放大其遇到的各种激励。
实际操作:起草一份简洁且公开的宪章,明确阐述系统的亲社会目标和不可逾越的红线,并将其纳入训练目标和评估中。
S – 审查并共享指标 透明度使外界能够审计 “S”(超智能)是否依然安全,从而将信任转化为可验证的科学依据。
实际操作:衡量关键指标——能力阈值、剩余风险、合作评分——并在每次发布时公开这些数据。
I – 激励合作 适当的激励机制确保 “I”(智能)扩展的是集体繁荣,而非零和竞争。
实际操作:奖励团队内部的协作并培养谦逊;将奖金、引用和晋升与合作基准挂钩,而不仅仅依据原始性能。
这一完整的 ASI 应急工作流程浓缩得足以印在一只咖啡杯上。它有望将 ASI 从一场存在风险的赌博转变为一个合作引擎,并提醒我们:如今人类和地球最需要的智慧,其核心并非高科技,而是模拟性的——明确的目标、共享的证据以及伦理文化。硅仅仅是放大了我们所注入其中的人类心智。
深入与超越
康普顿常数将存在性的焦虑转化为白板上的一个数字,但仅凭数字并不能拯救我们。无论 ASI 是学会治病还是传播虚假信息,关键不在其梯度,而在于我们的目标。若仅为狭隘的优势而设计,我们很可能会迎来令人恐惧的反乌托邦;若为共同繁荣而设计——在透明方程与模拟良知的指导下——超智能便能成为我们实现人类与地球共同繁荣旅程中的伙伴。
最终,AI 的未来不在于机器超越人类,而在于人类内化我们希望机器传承的那些价值观。只要对其进行严格衡量、及早实现对齐,并由我们最优秀的特质进行治理,ASI 就能帮助人类繁荣。蓝图已摆在我们手中——更重要的是,已深植于我们的思想与心灵中。
好文章,需要你的鼓励
UniR(Universal Reasoner)是一种创新的推理增强方法,可为冻结的大语言模型提供即插即用的推理能力。由韩国科学技术院研究团队开发,该方法将推理能力分解为独立的轻量级模块,无需改变主模型结构。UniR的核心优势在于高效训练(仅更新小型推理模块)、出色的模型间迁移能力(小模型可指导大模型)以及模块组合能力(多个专用模块可通过logits相加组合使用)。在数学推理和翻译测试中,UniR显著超越现有微调方法,展示了轻量级模块如何有效增强大语言模型的推理能力。
Nebius团队开发了SWE-rebench,一个自动化管道用于从GitHub收集软件工程任务并进行去污染评估。该系统解决了两大挑战:高质量训练数据稀缺和评估基准容易被污染。通过四阶段处理(初步收集、自动安装配置、执行验证和质量评估),SWE-rebench构建了包含超过21,000个Python交互式任务的数据集,并提供持续更新的评估基准。研究发现部分语言模型在传统基准上的表现可能被污染效应夸大,而DeepSeek模型在开源模型中表现最为稳健。
这项研究提出了JQL(发音为"Jackal"),一种通过多语言方法提升大型语言模型预训练数据质量的创新系统。研究团队从拉马尔研究所等机构通过四阶段方法解决了多语言数据筛选的难题:先由人类评估内容教育价值创建基准数据,然后评估大型语言模型作为"评判者"的能力,接着将这些能力提炼到轻量级评估器中,最后应用于大规模数据筛选。实验表明,JQL在35种语言上显著优于现有方法,甚至能泛化到未见过的语言如阿拉伯语和中文,为多语言AI发展提供了高效可靠的数据筛选方案。
浙江大学和西湖大学研究团队开发的Styl3R实现了艺术风格化3D重建的重大突破,能在不到一秒内从少量未标定照片和任意风格图像创建具有多视角一致性的3D艺术场景。通过创新的双分支网络架构将结构建模与外观着色分离,系统不仅保持了原始场景结构,还准确捕捉了参考风格特征。与现有方法相比,Styl3R在处理速度和视觉质量上均显著领先,为创意内容制作开辟了全新可能。