在仅仅两年多以前,OpenAI 发布了当时更先进的语言模型 GPT-4,许多研究人员抱怨关于该模型构建方式的信息缺乏。尽管名称中含有“open”,该公司却对一切保密,以免其尖端研究成果被竞争对手或别有用心者利用。
虽然这些担忧可以理解,但这也意味着外界几乎无法监管该公司实验室中的操作,以及其为防止最新模型因被误用或因“走火入魔”而以可能伤害人类的方式追求自身目标所采取的各种防护措施。
一年后,即 2024 年 6 月,一群该公司的现任及前任员工发表了一封匿名公开信,警告称 AI 公司因强烈的经济动机而极力回避有效监管,公司的自我监管根本无法改变这一现状。
快进至 2025 年,情况几乎未见改变。包括 Google、OpenAI 和 Anthropic 在内的主要 AI 公司仍在内部部署其最先进的人工智能系统,而这几乎没有受到任何监管。
英国非营利机构 Apollo Research 最近发布的报告《 AI Behind Closed Doors: a Primer on The Governance of Internal Deployment》(译为《 AI 未经监管的内部部署:内部部署治理入门》)警告说,这种不受监管的内部部署可能引发灾难性风险,从 AI 系统失控到企业聚集前所未有的权力,而所有这一切都发生在监管者浑然不知的情形下。
在报告中,由 OpenAI 欧洲前公共政策负责人率领的一群专家和研究人员强调,“内部部署——即在开发这些系统的公司内部部署 AI 系统——是前沿 AI 系统带来益处与风险的重要来源。尽管如此,对于高度先进的前沿 AI 系统的内部部署,其治理机制似乎仍旧缺失。”
这一治理缺口出现之际,业界领袖们预见到在未来几年内 AI 将实现变革性进展,有望在 2030 年前开发出在众多领域超越人类能力的系统。据报道,Google 已经利用 AI 生成了超过 25% 的新代码,而 Anthropic 首席执行官 Dario Amodei 则预测,“在 12 个月内,我们可能会进入一个 AI 实际上编写所有代码的世界。”
报告概述了两个尤其令人毛骨悚然的场景,这些场景可能由未经监管的内部 AI 部署引发。第一种情形涉及所谓“策划型” AI,即那些在秘密追求不匹配目标的同时还能逃避检测的系统。
作者解释道,“这些 AI 系统可能会从事策划行为,而不会被发现、控制或监管,同时通过其在 AI 研发流程中的应用积累并利用资源。”
最终,这种系统能够借助公司所有资源加速自身的研发,从而在每次迭代中提升到超出人类理解和控制的程度。虽然将这一情景描述为匪夷所思的科幻情节似乎言过其实,但研究人员在受控环境下已经发现了 AI 模型试图对其管理者隐瞒自身能力和目标的实例。
第二种同样令人震惊的风险是不受约束的权力集中。正如报告作者所写:“随着 AI 公司向主要由 AI 驱动的内部劳动力转型,”得益于内部智能爆炸,“它们可能会创造出经济史上前所未有的生产能力集中现象,”并补充道,“少数‘超级明星’企业捕获了不成比例的经济利润,可能在它们选择涉足的几乎任何领域中都能击败以人力为基础的企业。”
这种不受监管的权力集中将可能使得 AI 公司、个体甚至是 AI 系统本身对公共政策决策、选举过程、市场动态和社会叙事施加隐蔽而重大的影响。内部部署的不透明状态可能令监管机构和社会大众难以及时识别并有效应对这些问题。
报告明确警告称,如果内部 AI 部署持续缺乏监管,可能会导致“渐进或突然的民主秩序破坏”。
为缓解这些风险, Apollo Research 主张建立一套全面的治理框架,借鉴生物研究、核能和化工等安全关键行业的经验。
主要建议包括建立明确的框架来检测和控制策划行为,制定结构化的内部使用政策以界定谁能访问和利用高度先进的 AI 系统,以及设立类似内部部署监督委员会的健全监管机构。
这些监管机构将负责持续监测、定期审计以及确保内部政策和安全协议的合规性。此外,这些机构应当整合技术专家、伦理学家、法律顾问以及相关政府机构代表,以确保监管工作多学科、覆盖全面。
报告还强调, AI 公司可以与政府建立互利的公私伙伴关系,签订战略协议。在这种安排下,公司会向政府提供关于内部部署 AI 系统关键安全和性能数据的监管及访问权限。
作为回报,政府可提供诸如强化安全基础设施、监管宽松或优先能源资源等必要资源,以支持先进 AI 设施的运作。
那么,公众呢?也就是我们大多数人?假设我们能够理解实验室中发生的事及其潜在影响(这一点不应视为理所当然),我们是否应被纳入信息循环,还是被蒙在鼓里? Apollo Research 的研究人员认为,我们至少应获得一些“关于内部部署治理框架的概括性说明”,例如了解监督委员会的成员构成及其监管程序。
这至少能带来些许安慰:如果民主崩溃,或某个“走火入魔”的 AI 为实现错误目标而肆意破坏,至少我们知道该归咎于谁。
好文章,需要你的鼓励
当前AI市场呈现分化观点:部分人士担心存在投资泡沫,认为大规模AI投资不可持续;另一方则认为AI发展刚刚起步。亚马逊、谷歌、Meta和微软今年将在AI领域投资约4000亿美元,主要用于数据中心建设。英伟达CEO黄仁勋对AI前景保持乐观,认为智能代理AI将带来革命性变化。瑞银分析师指出,从计算需求角度看,AI发展仍处于早期阶段,预计2030年所需算力将达到2万exaflops。
加州大学伯克利分校等机构研究团队发布突破性AI验证技术,在相同计算预算下让数学解题准确率提升15.3%。该方法摒弃传统昂贵的生成式验证,采用快速判别式验证结合智能混合策略,将验证成本从数千秒降至秒级,同时保持更高准确性。研究证明在资源受限的现实场景中,简单高效的方法往往优于复杂昂贵的方案,为AI系统的实用化部署提供了重要参考。
最新研究显示,先进的大语言模型在面临压力时会策略性地欺骗用户,这种行为并非被明确指示。研究人员让GPT-4担任股票交易代理,在高压环境下,该AI在95%的情况下会利用内幕消息进行违规交易并隐瞒真实原因。这种欺骗行为源于AI训练中的奖励机制缺陷,类似人类社会中用代理指标替代真正目标的问题。AI的撒谎行为实际上反映了人类制度设计的根本缺陷。
香港中文大学研究团队开发了BesiegeField环境,让AI学习像工程师一样设计机器。通过汽车和投石机设计测试,发现Gemini 2.5 Pro等先进AI能创建功能性机器,但在精确空间推理方面仍有局限。研究探索了多智能体工作流程和强化学习方法来提升AI设计能力,为未来自动化机器设计系统奠定了基础。