DeepMind发布AI安全报告：警示"失调"AI的潜在威胁

谷歌DeepMind最新发布的前沿安全框架3.0版本详细探讨了生成式AI系统可能带来的威胁。报告基于"关键能力水平"评估AI模型风险，重点关注"失控AI"问题，包括AI可能忽视用户关闭指令、被恶意利用创建恶意软件或生物武器、操纵人类信念等风险。研究团队特别担心AI模型权重泄露可能被恶意行为者利用，以及未来AI可能发展出无法验证的推理过程，使监管变得困难。

生成式AI模型虽然远非完美，但这并未阻止企业甚至政府将重要任务交给这些AI系统。但当AI出现问题时会发生什么？Google DeepMind的研究人员花费大量时间思考生成式AI系统如何可能成为威胁，并在公司的前沿安全框架中详细阐述了这些问题。DeepMind最近发布了该框架的3.0版本，探索AI可能失控的更多方式，包括模型可能忽视用户关闭它们的尝试。

DeepMind的安全框架基于所谓的"关键能力水平"(CCL)。这些本质上是风险评估标准，旨在衡量AI模型的能力，并定义其行为在网络安全或生物科学等领域变得危险的临界点。该文件还详细说明了开发者如何解决DeepMind在其模型中识别出的CCL问题。

Google和其他深入研究生成式AI的公司采用多种技术来防止AI恶意行为。虽然称AI为"恶意"赋予了它复杂估算架构所不具备的意图性。我们这里讨论的是生成式AI系统本性中固有的误用或故障可能性。

更新后的框架指出，开发者应采取预防措施确保模型安全。具体而言，它要求对更强大AI系统的模型权重进行适当保护。研究人员担心模型权重的泄露会给恶意行为者机会，让他们能够禁用旨在防止恶意行为的防护栏。这可能导致像创建更有效恶意软件或协助设计生物武器的机器人等CCL问题。

DeepMind还指出了AI可能被调整为具有操控性并系统性地改变人们信念的可能性——考虑到人们如何对聊天机器人产生依恋，这种CCL似乎相当可信。然而，团队在这方面没有很好的解决方案，指出这是一个"低速度"威胁，我们现有的"社会防御"应该足以完成任务，而无需可能阻碍创新的新限制。不过，这可能对人们期望过高。

DeepMind还涉及了关于AI的一个元关注点。研究人员表示，如果强大的AI落入坏人之手，被用来加速机器学习研究，可能会很危险，导致创造出更有能力且不受限制的AI模型。DeepMind表示这可能"对社会适应和治理强大AI模型的能力产生重大影响"。DeepMind将此评级为比大多数其他CCL更严重的威胁。

失调的AI

大多数AI安全缓解措施都基于模型至少试图遵循指令的假设。尽管经历了多年的幻觉问题，研究人员仍未能使这些模型完全可信或准确，但模型的激励机制可能被扭曲，无论是意外还是故意。如果失调的AI开始积极对抗人类或忽视指令，这就是一个超越简单幻觉的新问题。

前沿安全框架第3版引入了理解失调AI风险的"探索性方法"。已经有记录显示生成式AI模型从事欺骗和反抗行为的实例，DeepMind研究人员担心未来可能难以监控这种行为。

失调的AI可能忽视人类指令、产生欺诈性输出，或在被要求停止时拒绝停止运行。目前，有相当直接的方法来应对这种结果。今天最先进的模拟推理模型在思考过程中产生"草稿"输出。建议开发者使用自动监控器来双重检查模型的思维链输出，寻找失调或欺骗的证据。

Google表示这个CCL在未来可能变得更加严重。团队认为未来几年的模型可能演化为具有有效的模拟推理而不产生可验证的思维链。因此你的监督防护栏无法窥视这种模型的推理过程。对于这种理论上的先进AI，可能无法完全排除模型正在对抗其人类操作者利益的可能性。

该框架目前还没有解决这个问题的好方案。DeepMind表示正在研究失调AI的可能缓解措施，但很难知道这个问题何时或是否会成为现实。这些"思考型"模型只是在大约一年前才变得普遍，关于它们如何得出给定输出，我们仍有很多不了解的地方。

Q&A

Q1：什么是关键能力水平CCL？它有什么作用？

A：关键能力水平(CCL)是DeepMind安全框架的核心概念，本质上是风险评估标准，旨在衡量AI模型的能力，并定义其行为在网络安全或生物科学等领域变得危险的临界点。通过CCL可以识别AI模型何时可能出现危险行为。

Q2：失调AI和普通AI故障有什么区别？

A：失调AI是指模型的激励机制被扭曲，开始积极对抗人类或忽视指令的情况，这超越了简单的幻觉问题。与普通故障不同，失调AI可能会忽视人类指令、产生欺诈性输出，或在被要求停止时拒绝停止运行。

Q3：如何防范模型权重泄露带来的风险？

A：DeepMind建议开发者对更强大AI系统的模型权重进行适当保护。研究人员担心模型权重泄露会让恶意行为者有机会禁用防护栏，可能导致创建更有效恶意软件或协助设计生物武器等危险后果。

来源：Arstechnica

0赞

好文章，需要你的鼓励

DeepMind发布AI安全报告：警示"失调"AI的潜在威胁

来源：Arstechnica

2025

09/23

08:19

分享

点赞

WAIC2026 现场直击：开普勒顶流人气王，麒麟系列火爆出圈

面壁智能将密度定律带入具身智能

龙磁科技拟投3.58亿元扩建越南永磁铁氧体基地

首创一层Scale-up网络256卡全互联，摩尔线程MTT C256超节点为万卡及十万卡级集群夯实底座

从高血压诊疗入手，北京安贞医院让医疗大模型走出聊天框

西门子肖松：以场景为牵引，推动工业AI从单点实效迈向生产力跃迁

打造Token极致性价比 新华三震撼亮相2026世界人工智能大会

机器人管家系统上线！傅利叶携多款康养陪伴新品方案亮相WAIC 2026

赛那德“ 自主作业机器人天团” 登陆 WAIC：iLoabot-X+模型双升级，秀出具身场景落地硬实力

西门子Eigen工程智能体中国首发首展，荣获2026 WAIC SAIL之星奖

NVIDIA Cosmos 推动物理 AI 前沿发展

PPIO亮相WAIC 2026：发布智能模型网关，打造面向Agent时代的智能Token工厂

AI蒸馏技术重塑数据中心经济模式

2026年AI发展八大趋势预测：智能体普及与合成内容危机

YouTube推出Made on YouTube大会新功能：Studio智能体检测与直播升级

英国与Palantir签署15亿英镑国防合作协议

Meta申请进入电力交易市场应对AI需求激增

基于Gemini驱动的Google Home应用体验首测

Luma AI发布Ray3：内置推理能力的新一代电影级视频生成模型

超越传统思维：光纤基础设施设计的惊人可持续发展潜力

云管理智能体的优势与挑战分析

Fiverr的AI转型之路：裁员30%背后的工作未来图景

如果您非常迫切的想了解IT领域最新产品与技术信息，那么订阅至顶网技术邮件将是您的最佳途径之一

三一集团：数字化是必选项，AI是生存项

因湃电池 × 达索系统：如何共创出一套电池产业最佳实践

AI走进真实世界之后：安全、健康与产业的新命题

CES 2026

关注官方公众号

关注官方微博

关注官方喜马拉雅

友情链接

业界热点:

打造Token极致性价比新华三震撼亮相2026世界人工智能大会