斯坦福AI安全工作坊展示安全AI发展路径

本文深入分析了斯坦福大学AI安全中心举办的研讨会所展示的AI安全领域最新进展。文章探讨了AI安全的两个重要方向:构建更安全的AI和让AI变得更安全,强调这两种方法需要有机结合。通过分析物理AI(如人形机器人)与生成式AI结合的安全挑战,以及可达性分析在AI安全中的应用,展现了当前AI安全研究的前沿技术和实际应用场景。

在今天的专栏中,我深入分析了AI安全领域的最新技术进展,这在斯坦福大学著名的AI安全中心举办的出色工作坊中得到了充分展示。

当前的情况是,整个社会都在努力确保AI的安全性。我们需要最优秀的人才专注于发现和发明合适的方法和技术来实现这一目标。这将是一个漫长而艰辛的旅程。幸运的是,尖端研究,如斯坦福AI安全中心令人印象深刻的工作,清楚地展示了我们现在的位置、将要去往的方向,更重要的是,揭示了如何在实验室中设计AI安全并最终成为现实世界的日常实践。

让我们来谈谈这个话题。

AI安全的背景

在深入了解最近工作坊的细节之前,我想简要介绍一下AI安全这一总体话题的背景。

如今,人们普遍认为AI安全包含两个主要考虑因素,通常被描述为截然不同的两个方面,但我认为它们实际上是同一枚硬币的两面。让我解释一下。

考虑AI安全的这些关键方面:

构建更安全的AI:

这设想我们应该从一开始就设计出尽可能安全的AI。以安全为座右铭构建AI,让所有AI开发者都将安全放在首位。

让AI更安全:

这强调一旦AI投入生产使用,确保AI防护措施会激活并努力将AI保持在适当的安全条件内,避免不安全的行为。

两者并行

(即构建更安全的AI和让AI更安全):

上述两种方法并不相互冲突;事实上,它们需要合理整合,以尽力实现最大可行的AI安全。

让我们详细分析一下。

一些人专注于构建更安全的AI,比如构建在现实世界中尽可能安全工作的AI的方法。这很重要,非常受欢迎。其他人通常专注于让AI更安全,通过整合AI安全保护措施,在AI积极运行并执行现实世界行为时启动。这些是决定性的后备措施,旨在将AI保持在安全参数内,避免AI的不安全行为。

无论出于什么原因,有时候,一些人似乎固守一个阵营,而不给另一个阵营太多关注。你要么从头开始构建AI安全,要么就不这样做。你要么有在运行时设法激活的AI安全保护措施,要么你的AI中没有这样的触发器。遗憾的是,两个阵营往往会专注于自己的偏好或倾向,似乎不欣赏或接受大局观。

大局观是我们必须通过多种手段和维度追求AI安全。这是一个太重要的话题,不能分裂成派系。我们必须结合构建更安全AI的愿望和让AI更安全的努力。这个格言也可以反过来说,即我们可以同时行走和嚼口香糖,让AI更安全并构建更安全的AI。

它们是同一个豆荚里的两颗豌豆。

斯坦福工作坊全力以赴

我最近参加了由全球知名的斯坦福AI安全中心举办的年度AI安全工作坊,再次被那里进行的最先进努力所打动。读者可能记得我之前讨论过那里进行的研究。这次最新活动于2025年9月22日在斯坦福大学校园举行。

在活动开幕时,执行董事Mansur Arief博士提供了开幕致辞,为AI安全会议定下基调。这包括AI安全中心的既定使命:"斯坦福AI安全中心的使命是开发严格的技术来构建安全可靠的AI系统,并建立对其行为和稳健性的信心,从而促进它们在社会中的成功采用。"

我想指出的一个关键要素是旨在开发严格实践的重要性。有很多非严格或临时的AI安全方法正在肆意流传。尽管这些努力可能是善意的,但它们往往会分崩离析。没有足够的严格性,AI安全可能看起来在增加安全性,但现实可能是AI并不特别安全,甚至可能更糟。人们可能会错误地假设AI整合了安全性,导致他们不当地依赖AI。

拥有严格的AI安全是首要任务。特征包括设计的AI安全是高度可靠、可验证、可重复的,并且在其他方面满足严格的指标和可测量性。在AI安全方面,我们不希望有敷衍了事的做法。

内容丰富,互动激烈

我倾向于偏好将演讲与充足的互动时间和建立新联系相结合的工作坊。这次活动的设计达到了那个高标准。做得很好。

为了让你了解所涵盖的内容,这里是一些进行的演讲:

Somil Bansal(斯坦福)关于"AI驱动自主系统的开放世界安全"

Chen Wu(Waymo)关于"Waymo的AI安全方法"

Riccardo Mariani(英伟达)关于"物理AI的安全:标准化格局和架构"

Jerry Lopez(Torc)关于"四级自主系统AI安全的挑战和针对性研究"

Jose Blanchet(斯坦福)关于"用错误模型做出正确决策"

Clark Barrett(斯坦福)关于"可验证代码生成"

"AI安全挑战和机遇"小组讨论,包括小组成员Akshay Chalana(Saphira)、Ben Zevenbergen、Tobin South(斯坦福)、Lindsey Gailmard(斯坦福),主持人Max Lamparth(斯坦福)。

"全球AI安全合作和政策制定"小组讨论,包括小组成员Mathilde Cerioli(EveryoneAI)、Mariami Tkeshelashvili(IST)、Ellie Sakhaee(谷歌),主持人Kiana Jafari(斯坦福)。

Mansur Arief(斯坦福)关于AI安全的开幕和闭幕致辞

我经常希望在这类活动中看到的一个方面是为学生提供一些曝光机会。

我发现这种策略对他们萌芽的职业生涯很有帮助,并在完成研究生学位的日常磨练中保持精神振奋。果然,为学生提供了海报展示会来展示他们的研究,他们在大舞台上分享他们研究的简短片段,获得了一刻的辉煌。我衷心祝愿他们最好的——我们将期待看到他们成为AI安全领域的下一批推动者和影响者。

AI安全和趋势用例

我这里没有足够的空间覆盖所有的演讲和展示,所以我将选择一个进行深入分析,作为正在进行的最新研究的典型例子。如果读者有兴趣,我将在后续文章中涵盖更多演讲。

首先,我一直在我的文章中广泛探索AI安全,并强调了一个新兴且有些令人惊讶但令人兴奋的趋势,即将物理AI与生成式AI和大语言模型连接起来。物理AI是如今用来指代AI驱动的物理实例的绰号,如人形机器人、自动驾驶汽车和其他有形工件。一些人开始将生成式AI应用于物理AI。

例如,假设你家里有一个人形机器人,可以做简单的任务,比如四处走动、洗衣服或收拾散落在房子周围的物品。如果我们将这个机器人与生成式AI结合,机器人可能协助你的可能性几乎是无限的。一个突出的方面是,这个会走会说话的机器人可能会就心理健康问题为你提供建议(通过生成式AI),同时在你的住所中陪伴你。

总的来说,我们可以将AI安全原则应用于三个突出的新兴用例:

物理AI:

设计AI安全来帮助物理机器,如机器人或自动驾驶汽车,避免操作到不安全的条件。

生成式AI:

设计AI安全,使生成式AI不会偏离到不安全的情况,比如不当地建议用户伤害自己或伤害他人。

双重连接的生成式AI+物理AI:

设计具有双重目的的AI安全,确保物理AI及其相关生成式AI的安全行为。

让我们探索这个。

机器人和幼儿

我将从一个物理AI实例开始,然后我们将生成式AI添加到场景中。

考虑家中人形可行走机器人的情况。这是一个物理AI实例。安全至关重要。我们当然不希望机器人无意中撞到站在家中客厅的幼儿。那会是不安全的。因此,AI安全要素是让AI驱动的机器人检测到幼儿在附近并寻求避免撞到孩子。

这并不像看起来那么容易。如果孩子站着不动,避开孩子的计算可能比孩子在运动时稍微容易一些。运动中的幼儿更难避开,因为我们无法确定孩子在任何特定时刻会在哪里。投射和预测变得重要。

当可能进入情况动态的任何潜在干扰出现时,复杂性会变得更糟。想象一下家里有一条狗。AI安全组件试图评估幼儿在哪里、幼儿将在哪里,还必须处理狗可能干预的可能性。机器人可能试图避开狗,这样做,最终朝幼儿的方向移动。这不好。

我们如何应对这些挑战?

可达性和AI安全

在斯坦福工作坊的一场富有洞察力的演讲中,Somil Bansal博士讨论了开放世界环境中AI安全的复杂性。我将用我自己的话来概述这个话题,这些话大致基于他的敏锐评论。

让我们使用我的幼儿场景。假设我们有一个在房子里漫游的机器人,它被允许移动到任何需要的地方。这可以被解释为开放世界环境。封闭世界是如果我们将机器人限制在房子里的特定轨道上,它只能严格地停留在那条轨道上。相反,我们将允许机器人自由移动。

我们想要设计某种形式的AI安全,持续计算关于这个机器人的可达性。机器人能安全地导航到客厅的另一边而不撞到孩子吗?如果孩子突然开始移动并左右摇摆怎么办?假设狗冲进客厅并作为一种干扰进入情况的动态?等等。

Bansal博士一直在进行使用深度学习解决可达性问题的创新研究。他的演讲进一步扩展了他工作的前沿。你可以参考他共同撰写的一篇早期论文,标题为"DeepReach:解决高维可达性的深度学习方法",由Somil Bansal和Claire J. Tomlin撰写,arXiv,2020年11月4日,其中包含这些要点(摘录):

"在可达性分析中,人们计算动态系统的后向可达管(BRT)。这是这样一组状态:尽管有最坏情况的干扰(或更一般地说,外生的、对抗性的输入),从这组状态开始的轨迹最终将到达某个给定的目标集。"

"作为一个例子,对于航空器,干扰可能是风或附近飞行的另一架对抗性飞机,目标集可能是航空器的目的地。BRT提供了航空器可以安全到达其目的地的状态集和航空器的稳健控制器。"

"相反,如果目标集由已知不安全的状态组成,BRT代表尽管有最佳可能的控制努力,系统仍会因某种干扰而最终进入目标集的状态。因此,BRT包含潜在不安全的状态,因此应该避免。"

"在这项工作中,我们提出了DeepReach,一种基于深度学习的方法来近似解决高维可达性问题。"

将这些要点重新表述为我的幼儿例子,我们想要一个AI安全组件来评估与机器人走到客厅另一边相关的可达性安全。需要计算机器人的轨迹,包括幼儿在哪里、幼儿可能移动到哪里(动态),以及预期狗可能干预(干扰)。

涉及的数学很棘手

AI安全组件不仅要计算一个精确点的方面,还必须通过建立整套可能性来更加稳健。多个未来状态将被预测为安全的。同样,多个未来状态将被预测为不安全的。一旦机器人开始行动,所有这些都是动态情况,AI安全组件需要在实时行动时动态重新校准可达性。

在经典数学意义上,你需要快速处理复杂的偏微分方程,称为PDE,并发现满意和最优的路由解决方案。推导这些解决方案的巧妙方法是训练人工神经网络(ANN)来做到这一点。设计的ANN本质上充当安全价值函数的表示,我们可以用它来动态确定安全的可达状态并避免不安全的集合。

使用机器学习和ANN是构建AI安全组件的绝佳方式,这些组件可以复杂且灵活,以适应开放世界环境的各种变化阵列。

将生成式AI带入组合

我的幼儿场景专注于物理AI。

转换方向,考虑生成式AI的日常使用,如ChatGPT、Claude、Gemini、Llama、Grok等。当用户与生成式AI进行对话时,他们可能会陷入阴郁的情况。我已经详细讨论了大语言模型可以通过合作共同创造人-AI妄想来促进用户心中的妄想思维。这是AI的不安全使用。

我们可以将相同的可达性考虑应用于生成式AI,就像我们对物理AI所做的那样。让我们看看如何做到。

用户开始与ChatGPT进行讨论。如果AI安全组件在工作,可以推导出一组预测的未来状态,比如对话是否可能朝着制造人-AI妄想的方向发展。可以计算避免这种疾病的安全区域。可以计算不安全区域并预测妄想参与可能出现。

作为AI安全保护措施,ChatGPT可以依靠那种AI安全和可达性推导。生成式AI大概会使用那种指导来避开任何妄想的共同合作。这发生在幕后,或者我们应该说在引擎盖下,AI安全组件静静地计算对话安全进行的方式。它需要是动态的并实时更新,因为用户可能突然输入可能使互动偏向安全相关危险区域的提示。

最后,如果我们有与生成式AI配对的物理AI,所有这些AI安全方面都相应地适用于两个要素。我们想为物理AI设计AI安全。我们想为生成式AI设计AI安全。我们想要识别和处理物理AI和生成式AI双重合作的AI安全。

AI安全至关重要

AI正变得无处不在。

我们生活的各个方面都将深深扎根于与AI的某种接触或互动中。社会需要安全的AI,或者至少是我们能够做到的尽可能安全的AI。构建安全AI和让AI安全的准则是黄金法则。AI研究人员和AI从业者需要齐心协力,找到明智且可实施的方法,在所有方面以最佳可能的方式将AI安全带入日常现实。

正如本杰明·富兰克林明智地指出:"一盎司的预防胜过一磅的治疗。"

这就是AI安全的全部内容。

Q&A

Q1:斯坦福AI安全中心的使命是什么?

A:斯坦福AI安全中心的使命是开发严格的技术来构建安全可靠的AI系统,并建立对其行为和稳健性的信心,从而促进它们在社会中的成功采用。该中心强调开发具有高度可靠、可验证、可重复特征的严格AI安全实践。

Q2:物理AI和生成式AI的安全挑战有什么不同?

A:物理AI的安全挑战主要涉及防止机器人、自动驾驶汽车等物理设备在现实环境中发生碰撞或危险操作。生成式AI的安全挑战则是防止ChatGPT等系统产生有害建议或与用户共同创造危险妄想。当两者结合时,需要设计双重目的的AI安全系统。

Q3:DeepReach技术如何解决AI安全中的可达性问题?

A:DeepReach是基于深度学习的方法,用于解决高维可达性问题。它通过训练人工神经网络来计算后向可达管,预测系统在各种干扰下的安全和不安全状态集合。该技术能够实时动态重新校准,为AI系统提供稳健的安全价值函数,确保在开放世界环境中的安全导航。

来源:Forbes

0赞

好文章,需要你的鼓励

2025

09/24

09:54

分享

点赞

邮件订阅