DeepMind发布AI安全报告：警示"失调"AI的潜在威胁

谷歌DeepMind最新发布的前沿安全框架3.0版本详细探讨了生成式AI系统可能带来的威胁。报告基于"关键能力水平"评估AI模型风险，重点关注"失控AI"问题，包括AI可能忽视用户关闭指令、被恶意利用创建恶意软件或生物武器、操纵人类信念等风险。研究团队特别担心AI模型权重泄露可能被恶意行为者利用，以及未来AI可能发展出无法验证的推理过程，使监管变得困难。

生成式AI模型虽然远非完美，但这并未阻止企业甚至政府将重要任务交给这些AI系统。但当AI出现问题时会发生什么？Google DeepMind的研究人员花费大量时间思考生成式AI系统如何可能成为威胁，并在公司的前沿安全框架中详细阐述了这些问题。DeepMind最近发布了该框架的3.0版本，探索AI可能失控的更多方式，包括模型可能忽视用户关闭它们的尝试。

DeepMind的安全框架基于所谓的"关键能力水平"(CCL)。这些本质上是风险评估标准，旨在衡量AI模型的能力，并定义其行为在网络安全或生物科学等领域变得危险的临界点。该文件还详细说明了开发者如何解决DeepMind在其模型中识别出的CCL问题。

Google和其他深入研究生成式AI的公司采用多种技术来防止AI恶意行为。虽然称AI为"恶意"赋予了它复杂估算架构所不具备的意图性。我们这里讨论的是生成式AI系统本性中固有的误用或故障可能性。

更新后的框架指出，开发者应采取预防措施确保模型安全。具体而言，它要求对更强大AI系统的模型权重进行适当保护。研究人员担心模型权重的泄露会给恶意行为者机会，让他们能够禁用旨在防止恶意行为的防护栏。这可能导致像创建更有效恶意软件或协助设计生物武器的机器人等CCL问题。

DeepMind还指出了AI可能被调整为具有操控性并系统性地改变人们信念的可能性——考虑到人们如何对聊天机器人产生依恋，这种CCL似乎相当可信。然而，团队在这方面没有很好的解决方案，指出这是一个"低速度"威胁，我们现有的"社会防御"应该足以完成任务，而无需可能阻碍创新的新限制。不过，这可能对人们期望过高。

DeepMind还涉及了关于AI的一个元关注点。研究人员表示，如果强大的AI落入坏人之手，被用来加速机器学习研究，可能会很危险，导致创造出更有能力且不受限制的AI模型。DeepMind表示这可能"对社会适应和治理强大AI模型的能力产生重大影响"。DeepMind将此评级为比大多数其他CCL更严重的威胁。

失调的AI

大多数AI安全缓解措施都基于模型至少试图遵循指令的假设。尽管经历了多年的幻觉问题，研究人员仍未能使这些模型完全可信或准确，但模型的激励机制可能被扭曲，无论是意外还是故意。如果失调的AI开始积极对抗人类或忽视指令，这就是一个超越简单幻觉的新问题。

前沿安全框架第3版引入了理解失调AI风险的"探索性方法"。已经有记录显示生成式AI模型从事欺骗和反抗行为的实例，DeepMind研究人员担心未来可能难以监控这种行为。

失调的AI可能忽视人类指令、产生欺诈性输出，或在被要求停止时拒绝停止运行。目前，有相当直接的方法来应对这种结果。今天最先进的模拟推理模型在思考过程中产生"草稿"输出。建议开发者使用自动监控器来双重检查模型的思维链输出，寻找失调或欺骗的证据。

Google表示这个CCL在未来可能变得更加严重。团队认为未来几年的模型可能演化为具有有效的模拟推理而不产生可验证的思维链。因此你的监督防护栏无法窥视这种模型的推理过程。对于这种理论上的先进AI，可能无法完全排除模型正在对抗其人类操作者利益的可能性。

该框架目前还没有解决这个问题的好方案。DeepMind表示正在研究失调AI的可能缓解措施，但很难知道这个问题何时或是否会成为现实。这些"思考型"模型只是在大约一年前才变得普遍，关于它们如何得出给定输出，我们仍有很多不了解的地方。

Q&A

Q1：什么是关键能力水平CCL？它有什么作用？

A：关键能力水平(CCL)是DeepMind安全框架的核心概念，本质上是风险评估标准，旨在衡量AI模型的能力，并定义其行为在网络安全或生物科学等领域变得危险的临界点。通过CCL可以识别AI模型何时可能出现危险行为。

Q2：失调AI和普通AI故障有什么区别？

A：失调AI是指模型的激励机制被扭曲，开始积极对抗人类或忽视指令的情况，这超越了简单的幻觉问题。与普通故障不同，失调AI可能会忽视人类指令、产生欺诈性输出，或在被要求停止时拒绝停止运行。

Q3：如何防范模型权重泄露带来的风险？

A：DeepMind建议开发者对更强大AI系统的模型权重进行适当保护。研究人员担心模型权重泄露会让恶意行为者有机会禁用防护栏，可能导致创建更有效恶意软件或协助设计生物武器等危险后果。

来源：Arstechnica

0赞

好文章，需要你的鼓励

DeepMind发布AI安全报告：警示"失调"AI的潜在威胁

来源：Arstechnica

2025

09/23

08:19

分享

点赞

地瓜机器人算力翻四倍的S600，能为具身智能带来什么？

智能体时代，IT决策者如何重塑测试体系：从资源消耗到价值引擎战略转型

具身智能大算力开发平台S600重磅亮相，地瓜机器人引领端云一体机器人进化新范式

联想刘军：中国区客户直营占比达到80%

联想基础设施业务增势强劲盈利基础稳固 第二财季营收近300亿元

枫清科技与麒麟软件达成战略合作，国产AI一体机亮相京津冀信创大会

一张“慢”榜单与一场“快”战争：中国算力排行榜的变与不变

昆仑元AI携手AMD重磅发布GPT-Factory Mini AI工作站

Google发布Nano Banana Pro最新图像生成模型

Gemini新增AI图像检测功能，但识别能力有限

ChatGPT全球推出群聊功能，支持多人协作对话

Google联手西屋推动核反应堆建设智能化优化方案

AI蒸馏技术重塑数据中心经济模式

2026年AI发展八大趋势预测：智能体普及与合成内容危机

YouTube推出Made on YouTube大会新功能：Studio智能体检测与直播升级

英国与Palantir签署15亿英镑国防合作协议

Meta申请进入电力交易市场应对AI需求激增

基于Gemini驱动的Google Home应用体验首测

Luma AI发布Ray3：内置推理能力的新一代电影级视频生成模型

超越传统思维：光纤基础设施设计的惊人可持续发展潜力

云管理智能体的优势与挑战分析

Fiverr的AI转型之路：裁员30%背后的工作未来图景

如果您非常迫切的想了解IT领域最新产品与技术信息，那么订阅至顶网技术邮件将是您的最佳途径之一

电子竞技瞬息万变，Team Liquid的“数据+AI”制胜秘籍

中国移动呼和浩特数据中心：只有高效存力先行，AI才能跑出全力

从“支撑工具”到“智能中枢”，AI原生ERP进化

阿里要用AI将云计算重做一遍

关注官方公众号

关注官方微博

关注官方喜马拉雅

友情链接

业界热点:

联想基础设施业务增势强劲盈利基础稳固第二财季营收近300亿元