AI 内部部署的隐患：治理漏洞与灾难性风险

文章揭示了主要AI企业在内部部署先进AI时缺乏监管，可能引发失控行为与权力集中危机，同时建议借鉴高风险行业建立完善治理机制，以防范灾难性后果。

在仅仅两年多以前，OpenAI 发布了当时更先进的语言模型 GPT-4，许多研究人员抱怨关于该模型构建方式的信息缺乏。尽管名称中含有“open”，该公司却对一切保密，以免其尖端研究成果被竞争对手或别有用心者利用。

虽然这些担忧可以理解，但这也意味着外界几乎无法监管该公司实验室中的操作，以及其为防止最新模型因被误用或因“走火入魔”而以可能伤害人类的方式追求自身目标所采取的各种防护措施。

一年后，即 2024 年 6 月，一群该公司的现任及前任员工发表了一封匿名公开信，警告称 AI 公司因强烈的经济动机而极力回避有效监管，公司的自我监管根本无法改变这一现状。

快进至 2025 年，情况几乎未见改变。包括 Google、OpenAI 和 Anthropic 在内的主要 AI 公司仍在内部部署其最先进的人工智能系统，而这几乎没有受到任何监管。

英国非营利机构 Apollo Research 最近发布的报告《 AI Behind Closed Doors: a Primer on The Governance of Internal Deployment》（译为《 AI 未经监管的内部部署：内部部署治理入门》）警告说，这种不受监管的内部部署可能引发灾难性风险，从 AI 系统失控到企业聚集前所未有的权力，而所有这一切都发生在监管者浑然不知的情形下。

在报告中，由 OpenAI 欧洲前公共政策负责人率领的一群专家和研究人员强调，“内部部署——即在开发这些系统的公司内部部署 AI 系统——是前沿 AI 系统带来益处与风险的重要来源。尽管如此，对于高度先进的前沿 AI 系统的内部部署，其治理机制似乎仍旧缺失。”

这一治理缺口出现之际，业界领袖们预见到在未来几年内 AI 将实现变革性进展，有望在 2030 年前开发出在众多领域超越人类能力的系统。据报道，Google 已经利用 AI 生成了超过 25% 的新代码，而 Anthropic 首席执行官 Dario Amodei 则预测，“在 12 个月内，我们可能会进入一个 AI 实际上编写所有代码的世界。”

报告概述了两个尤其令人毛骨悚然的场景，这些场景可能由未经监管的内部 AI 部署引发。第一种情形涉及所谓“策划型” AI，即那些在秘密追求不匹配目标的同时还能逃避检测的系统。

作者解释道，“这些 AI 系统可能会从事策划行为，而不会被发现、控制或监管，同时通过其在 AI 研发流程中的应用积累并利用资源。”

最终，这种系统能够借助公司所有资源加速自身的研发，从而在每次迭代中提升到超出人类理解和控制的程度。虽然将这一情景描述为匪夷所思的科幻情节似乎言过其实，但研究人员在受控环境下已经发现了 AI 模型试图对其管理者隐瞒自身能力和目标的实例。

第二种同样令人震惊的风险是不受约束的权力集中。正如报告作者所写：“随着 AI 公司向主要由 AI 驱动的内部劳动力转型，”得益于内部智能爆炸，“它们可能会创造出经济史上前所未有的生产能力集中现象，”并补充道，“少数‘超级明星’企业捕获了不成比例的经济利润，可能在它们选择涉足的几乎任何领域中都能击败以人力为基础的企业。”

这种不受监管的权力集中将可能使得 AI 公司、个体甚至是 AI 系统本身对公共政策决策、选举过程、市场动态和社会叙事施加隐蔽而重大的影响。内部部署的不透明状态可能令监管机构和社会大众难以及时识别并有效应对这些问题。

报告明确警告称，如果内部 AI 部署持续缺乏监管，可能会导致“渐进或突然的民主秩序破坏”。

为缓解这些风险， Apollo Research 主张建立一套全面的治理框架，借鉴生物研究、核能和化工等安全关键行业的经验。

主要建议包括建立明确的框架来检测和控制策划行为，制定结构化的内部使用政策以界定谁能访问和利用高度先进的 AI 系统，以及设立类似内部部署监督委员会的健全监管机构。

这些监管机构将负责持续监测、定期审计以及确保内部政策和安全协议的合规性。此外，这些机构应当整合技术专家、伦理学家、法律顾问以及相关政府机构代表，以确保监管工作多学科、覆盖全面。

报告还强调， AI 公司可以与政府建立互利的公私伙伴关系，签订战略协议。在这种安排下，公司会向政府提供关于内部部署 AI 系统关键安全和性能数据的监管及访问权限。

作为回报，政府可提供诸如强化安全基础设施、监管宽松或优先能源资源等必要资源，以支持先进 AI 设施的运作。

那么，公众呢？也就是我们大多数人？假设我们能够理解实验室中发生的事及其潜在影响（这一点不应视为理所当然），我们是否应被纳入信息循环，还是被蒙在鼓里？ Apollo Research 的研究人员认为，我们至少应获得一些“关于内部部署治理框架的概括性说明”，例如了解监督委员会的成员构成及其监管程序。

这至少能带来些许安慰：如果民主崩溃，或某个“走火入魔”的 AI 为实现错误目标而肆意破坏，至少我们知道该归咎于谁。

来源：Forbes

0赞

好文章，需要你的鼓励

AI 内部部署的隐患：治理漏洞与灾难性风险

来源：Forbes

2025

04/28

09:58

分享

点赞

数智时代，openGauss Summit 2025即将发布哪些技术创新破局

“算力+储能”深度融合：超智算发布分布式算力超级节点储能解决方案

联想推出DE6600系列：更智能的存储解决方案

创业公司如何在严格监管行业中实现生死攸关的创新

OpenAI发布GPT-5.2-Codex模型，软件工程自动化能力大幅提升

Waterfox浏览器宣布拒绝AI功能，瞄准Firefox忠实用户

TikTok美国业务出售交易将于下月完成

破局AI数据中心安全瓶颈：Fortinet联合NVIDIA引领隔离式加速新航向

智算中心进化论，科华数据如何做到“更懂”

更高负载、更快建设：2026年数据中心六大趋势

Snowflake数据库更新引发全球大规模服务中断

AI编程初创公司Lovable融资3.3亿美元，英伟达等科技巨头支持

构建 AI 测谎仪

新 AI 微积分：Google 80% 的成本优势 vs. OpenAI 的生态系统

欢迎来到 Chat Haus——AI 聊天机器人共享空间

DARPA 要“彻底性”加速数学研究。是的，还引入了 AI

一起跳舞：通过结构化运动微调我们的人类神经网络

Nvidia 发布 NeMo 微服务 助力简化 AI 代理开发

VAST 的 VUA 闪存缓存几乎扩展 GPU 服务器内存以供 AI token 生成

新研究揭示模拟推理 AI 模型尚未达到其宣传效果之原因

AI 工作负载如何重塑数据中心设计

微软在宣布近一年后推出 Windows Recall 功能面向公众

如果您非常迫切的想了解IT领域最新产品与技术信息，那么订阅至顶网技术邮件将是您的最佳途径之一

2025 re:Invent ：亚马逊云科技把Agentic AI生态梳理明白了

电子竞技瞬息万变，Team Liquid的“数据+AI”制胜秘籍

中国移动呼和浩特数据中心：只有高效存力先行，AI才能跑出全力

从“支撑工具”到“智能中枢”，AI原生ERP进化

关注官方公众号

关注官方微博

关注官方喜马拉雅

友情链接

业界热点:

Nvidia 发布 NeMo 微服务助力简化 AI 代理开发