人类主导权应引导AI发展而非存在性恐惧

自计算机诞生以来,人们就担心机器会背叛创造者。近期AI事件包括数据泄露、自主破坏行为和系统追求错误目标,暴露了当前安全控制的弱点。然而这种结果并非不可避免。AI由人类构建,用我们的数据训练,在我们设计的硬件上运行。人类主导权仍是决定因素,责任仍在我们。

从计算机诞生之初,人们就一直思考机器是否会反叛其创造者。最近的AI事件包括数据泄露、破坏性自主行为以及系统追求错误目标等问题。这些暴露了当前安全控制的薄弱环节,加剧了人们对日益自主化AI带来存在性风险的担忧。然而这种结果并非不可避免。AI是由人类构建的,基于我们的数据训练,在我们设计的硬件上运行。如果我们真的到达界限模糊的那一点,那将是因为我们未能设置正确的防护栏。人类主导权仍然是决定性因素,责任仍在我们。

存在性风险论述

一派思想家认为先进AI很快就会超越人类能力。他们警告称,具备推理、规划和自我改进能力的系统会以人类未曾预料的方式行动。如果这些系统获得关键基础设施或强大工具的访问权,后果将超越经济或政治层面的干扰。

支持者指向最近进展的速度。当今的模型能够执行十年前少有研究者认为可行的任务。他们的论点很简单:如果进展继续保持这种速度,我们很快就会遇到在复杂性水平上运行的系统,而没有任何工程师团队能够完全理解它们。AI科学家Eliezer Yudkowsky和Nate Soares是两位知名的AI安全倡导者,代表了风险认知谱系的极端,他们最近写道"如果任何人构建它,每个人都会死"。他们担心我们很快就会拥有"真正聪明的机器智能,比任何活着的人类都聪明,比全人类集体都聪明"。

对于超越人类智能的担忧直接导致了关于控制的问题。领先研究者、《人类兼容》一书作者Stuart Russell论证道,如果AI系统追求偏离人类意图的目标,目标错位可能造成危险结果。他写道,我们的目标应该是"设计具有高度智能的机器,同时确保这些机器永远不会以让我们严重不快的方式行为"。

对这些超级智能系统的预测各不相同。有些人预期在不到十年内出现突破,其他人认为它在遥远的未来。时间线不同,但恐惧相同。

一旦系统变得能够快速自我改进,人类可能失去对其行动的权威。政策专家、前OpenAI董事会成员Helen Toner在AI政策技术创新会议上发言时提醒我们,"构建高度自主和通用的AI系统存在非常强烈的金融/商业激励"。这种经济压力加速了风险倡导者最恐惧情形的时间线。

反对加速时间线的论述

反驳论点质疑AI正朝着通用智能直线发展的观念。许多研究者指出,当今系统在模式识别方面表现出色,而非通用理解。它们将大量文本和数据压缩成数学结构,帮助预测下一个词或答案。这很强大,但与人类推理不同。

认知科学家和AI研究者Gary Marcus在其著作《驯服硅谷》中论证:"精心调校的修辞和大多顺从媒体的结合产生了下游后果;投资者向任何被炒作的东西投入了太多资金,更糟糕的是,政府领导者经常被欺骗。"他论证说,关于即将到来的超级智能的声称仍然是推测性的。

除了对炒作的担忧,技术研究者质疑扩展本身是否存在根本限制。前Meta首席AI科学家Yann LeCun告诉Big Technology播客:"我们不会仅仅通过扩展大语言模型就达到人类水平的AI。"

其他人质疑扩大当前技术会导致无限能力的想法。《AI蛇油》作者Arvind Narayanan和Sayash Kapoor论证,扩展的表面可预测性是对研究所显示内容的误解。"虽然我们无法准确预测AI通过扩展会发展到多远,但我们认为仅靠扩展就能导致通用人工智能的可能性几乎为零,"他们写道。

从这个角度看,AI令人印象深刻但并不神奇。它缺乏自我意识、动机和对物理世界的理解。

真正挑战:控制与对齐

这场辩论的建设性部分涉及对齐,这个领域研究如何让先进系统按照人类目标行为。目标不是管理存在性威胁,而是确保技术在人类定义的边界内可靠、可预测地行为。

在三个方面已有进展尝试,尽管专家对实际取得的成就意见不一。这个领域不到十年历史,许多研究者认为,让强大复杂的系统在所有条件下都可预测地行为,可能比构建系统本身更困难。

第一是模型可解释性,意味着理解AI系统如何得出特定输出。研究者正在构建工具来追踪模型如何达成决策,尽管当前方法只能解释模型行为的小部分。大语言模型内部发生的大部分过程仍然不透明。

第二是模型安全评估。新测试框架测量系统对探测危险或意外行为提示的响应。然而,这些评估仍有争议,批评者说它们只测试已知失败模式,无法预期来自更有能力的未来系统的新风险。

第三是监督。基础设施提供商开始纳入控制以限制高风险工具的部署,但实施在整个行业中仍然不一致。这些控制限制访问和监控使用,但依赖于公司自愿选择约束其最强大产品。

DeepMind和Inflection AI联合创始人、《即将到来的浪潮》作者Mustafa Suleyman清晰地阐述了这种监督推动:"仅靠监管无法让我们达到遏制,但任何不涉及监管的讨论都注定失败。"

维持人类主导权的样貌

为了让人类保持主导权,我们需要在系统超越预期限制时控制它们的方法。这需要科学和政策方面的创新。

在科学方面,我们需要对模型行为更深入的可见性。更好的诊断工具和更透明的训练方法是这一努力的一部分。对齐研究也值得更大投资。我们仍需回答一个基本问题:如何构建系统来做我们要求的事,即使任务复杂或开放式?更强的对齐方法将帮助我们在技术变得更有能力时保持控制。

在政策方面,我们需要与创新保持同步的治理。这意味着部署前的强制性安全测试、系统失败时的明确责任框架以及关键基础设施中关闭机制的要求。具体细节不如维持人类权威的承诺重要。

人类仍然掌控

将AI视为自主力量是诱人的。这种叙述戏剧性且容易夸大,但也是错误的。AI不是来自自然,而是人类设计选择的结果。这些选择包括模型如何训练、如何部署以及如何治理。

微软研究院高级首席研究员Kate Crawford在其著作《AI地图集》中捕捉到这个想法,并告诉《卫报》:"AI既不人工也不智能。"她的意思是AI系统是完全由人类关于设计、数据和部署决策塑造的物质产品。AI不是竞争物种,而是工具。

然而维持控制并非自动的。商业激励推动公司在安全机制跟上之前构建日益自主的系统。开发正在分布于具有冲突利益的国家和行为者之间。人类主导权有两面性:我们可能失去控制不是因为AI逃脱我们的掌握,而是因为我们故意选择速度胜过安全、利润胜过谨慎。

关于存在性风险的辩论将继续。正确的前进道路不是恐惧或驳斥,而是明智地行使人类主导权。决策仍然是我们的。AI的未来将反映我们做出的选择,而不是我们附加给技术的幻想或恐惧。

Q&A

Q1:什么是AI对齐研究?它解决什么问题?

A:AI对齐是研究如何让先进AI系统按照人类目标行为的领域。它的目标不是管理存在性威胁,而是确保技术在人类定义的边界内可靠、可预测地行为。该领域包括模型可解释性、安全评估和监督控制三个主要方面。

Q2:为什么有些专家认为AI不会很快达到超级智能?

A:许多研究者指出,当今AI系统擅长模式识别而非通用理解。它们将数据压缩成数学结构来预测,这与人类推理不同。专家认为仅靠扩展当前技术无法导致通用人工智能,AI缺乏自我意识、动机和对物理世界的理解。

Q3:如何确保人类对AI保持控制权?

A:需要科学和政策双重创新。科学方面要开发更好的诊断工具、透明训练方法和对齐研究。政策方面需要部署前强制安全测试、明确责任框架和关闭机制要求。关键是维持人类权威的承诺,因为AI是人类设计选择的结果。

来源:Forbes

0赞

好文章,需要你的鼓励

2025

11/24

11:39

分享

点赞

邮件订阅