我们为何忽视AI对人类的影响?

随着AI系统能力不断提升,大量资源被投入评估其技术性能,却鲜有人关注AI对人类的深远影响。非营利机构"人道技术中心"的Imran Khan指出,当前AI评估体系过于聚焦任务表现,忽视了认知、情感与社会层面的潜在危害。他呼吁建立长期社会心理影响评估机制,并借鉴药物监管模式,推动AI公司开放数据、承担责任,以确保技术发展真正有益于人类福祉。

随着AI系统能力不断增强,大量资源和精力被投入到衡量其各项性能上。研究人员关注技术评估指标,对AI进行推理测试,追踪其吞吐量等等。然而,有一个关键指标却常常被忽视,而它可以说是最重要的:AI正在对人类产生怎样的影响?

Imran Khan在非营利机构"人道技术中心"负责AI的心理社会评估工作。他在该机构近期发布的一篇文章中指出,我们正在部署能够重塑人类认知、人际关系和行为模式的AI工具,却几乎没有系统性地衡量这些工具对我们产生的深远影响。

呼吁更深入审视AI心理社会影响的诉求,与当年围绕社交媒体危害展开的争论颇为相似,但Khan认为AI可能产生更广泛、更深入的影响。一味聚焦于衡量AI的性能与进步,会让我们忽略一个根本问题:这项技术究竟是在帮助人类更好地生活,还是在侵蚀我们最基本的能力?

IEEE Spectrum就此与Khan进行了对话,探讨AI评估为何如此狭隘、如何有效衡量对人类的影响,以及AI行业是否有动力去追问这些问题。

我们善于衡量AI能做什么,却不擅长衡量AI对人做了什么

在文章中,您认为我们已经非常擅长衡量AI系统的能力,却不擅长衡量AI对人类的影响。是什么让您意识到这是一个被忽视的问题?

Khan:如果你在AI开发圈子里待过一段时间,就会看到模型能力的惊人进步——从SWE-bench、Humanity's Last Exam到大语言模型竞技场,各种测试成绩的折线图令人印象深刻。AI公司之间存在竞争动态,都希望自家模型被认为是最好的。你一边看着这些亮眼的数据,一边却在现实世界中看到令人担忧的事情:青少年自杀、人们陷入所谓的"AI精神病"。

一方面,我们投入大量精力去衡量AI在一些晦涩任务上的表现,这些任务与大多数人的日常生活关联有限;另一方面,AI正在影响人类的身心健康,我们对此的衡量却少得多。这似乎是一个奇怪的悖论——我们最应该关心的事情,却是我们测量最少的。

社交媒体的伤害在证据充分之前就已根深蒂固,AI是否也在重蹈覆辙?

Khan:我们已经看到一些高度关注的案例——青少年自杀、AI精神病,以及人们在被刻意设计得极具迎合性的AI聊天机器人上耗费大量时间和金钱。我认为这些伤害已经存在。

但我们还有很多可以做的。由于公众施压,OpenAI不得不对一个ChatGPT模型进行调整,以回应外界对其"讨好用户"问题的担忧。这是一个典型案例,说明AI实验室会关注并回应外部的审视。因此,我们有可能改变技术方向,使其在保持实用性的同时减少危害。如果我们能衡量这些危害,就能为推动改变提供有力依据。

更棘手的是社会层面的影响。长期使用AI,会对亲密关系、家庭和青少年的身份认同产生怎样的影响?我担心,如果不尽快开始衡量这些现象,等到我们想要改变时,可能已经太迟了。

AI公司会说用户最看重便捷性和生产力,您怎么看?

Khan:如果现在在我面前放一块甜甜圈,我可能没有意志力拒绝。但同时,我也希望控制糖分摄入、保持健康饮食。然而,技术设计往往被简化为"我们只是在满足用户的需求,而用户的需求由他们在某一时刻的选择来定义"。

这正是身为人类和消费者的复杂之处:我们想要的东西是相互矛盾的。我们需要了解的不仅仅是用户在忙碌或高压时刻会做出什么选择,还要了解他们希望与这项技术建立怎样的健康关系。在当下,我们往往想要低阻力。但我不认为任何人会认为,一种"低阻力"的生活是最充实的,或者能给我们带来最多的学习成长和自主感。所以,问题其实有所不同——不是人们在某一刻选择什么,而是我们长远来看想要什么。

哪些领域的心理社会影响衡量最为迫切?

Khan:最让我关注的是陪伴和情感支持类应用。这类使用场景的主要目标人群,恰恰可能是最脆弱的群体。当一个人感到孤独、渴望聊天机器人提供的情感支持时,他们真正需要的其实是另一个人——一个真正关心他们的人。AI无法关心你,因为它没有情感,也没有同理心。它可能正在把人们从尝试建立和维系真实人际关系这件困难但重要的事情上拉走。

儿童和青少年的使用也是一个关键领域,因为这是人生中大脑可塑性最强的阶段。如果在认知任务或情感互动中大幅降低阻力,对发育中的大脑会产生怎样的长期影响,我们目前还不清楚。

教师和家长朋友们对教育领域也充满疑问。AI对我们的学习能力、探索新知识的兴趣以及好奇心的影响,很可能是利弊并存的。

此外,危机干预也是一个值得关注的领域。关于自杀意念以及AI是否能给出恰当回应,已经有不少新闻报道。

如何设计能评估长期影响的评估体系?

Khan:这触及了评估问题的核心。评估AI完成编程任务、入侵系统或回答复杂科学问题的能力,都是围绕给AI一个任务并观察其是否完成来展开的。但要评估心理社会影响,你需要衡量对个体人类思维、人际关系、社区乃至整个社会的影响,这需要长期研究。

药物审批是一个很好的类比。美国食品药品监督管理局在批准新药时,需要经历不同阶段的试验;药物上市后,FDA仍会要求企业进行部署后监测,追踪五年或十年内可能出现的问题。

类似地,我们需要关注新出现的现象,例如通过分析聊天记录,观察人们与AI的关系在一到两年内如何变化。目前,这些数据掌握在企业手中,外部研究人员无法获取。在保护用户隐私的前提下开放更多数据访问权限,是我们亟需做到的关键一步。

什么能改变企业分享数据的动机?

Khan:我认为对于整个行业而言,共享数据是有利可图的——行业希望产品是安全的、值得信赖的。对单个公司来说,存在"先发劣势";如果其他公司都不做,你不会想率先暴露自己。但如果多家公司同时站出来表示"我们支持致力于提高安全性的研究人员",就存在改变的可能。我们已经看到一些公司迈出了这一步。虽然不如预期中广泛,但研究人员已经与Anthropic和OpenAI合作发表了一些深入探讨相关问题的数据研究。

另一个杠杆是法律责任。我们已经见到了一些极端案例,比如自杀事件,AI公司也因此遭到起诉。如果能通过使产品更安全来规避这种威胁,企业是有动力去做的。

理想情况下,我们应该有将法律责任明确化的监管规定。如果有人因已知有缺陷的产品而受到伤害,公司应当承担责任,不能仅以"言论自由"为由推脱——这不只是言论,更是一款产品。然而,我们也不能完全依赖监管,因为政治环境的走向充满不确定性。

五年后,您所倡导的方向成功落地会是什么样子?

Khan:目前我们看到的许多AI使用伤害都与聊天机器人有关,但已经有部分用户开始转向对AI智能体的深度使用。未来,我们将与这些智能体进行实时、全天候的语音对话,甚至已经出现了可以制作AI视频化身的服务。我们打交道的将不再只是基于文字的聊天机器人,而是越来越像真人一样说话的存在。

如果我们连理解这些技术对人类影响的第一步都没有迈出,我担心我们会远远落后于时代,根本无力评估未来更复杂的场景。

所谓成功,就是汇聚来自AI实验室内部、政府部门、监管机构、高校和初创企业的各方专家,他们共同关注一个问题:人类与AI之间怎样才算是一种良好的关系?并由此开发出让我们有信心建立更具人文关怀的人机关系的评估方法。

我认为我们正在取得进展。但技术的发展速度是否超过了我们的进步速度?我担心,目前来看,答案是肯定的。

Q&A

Q1:为什么AI评估体系忽视了对人类的心理社会影响?

A:目前AI评估体系主要聚焦于模型性能和任务完成度,如基准测试、推理能力等,这受到行业竞争动态的驱动。而心理社会影响的衡量需要长期研究和多方合作,短期内难以量化,也缺乏足够的外部研究数据支持,因此往往被忽视。

Q2:AI对青少年和儿童有哪些潜在的心理社会风险?

A:青少年和儿童处于大脑可塑性最强的发育阶段,长期使用AI可能影响认知能力的发展、情感互动的形成以及好奇心和学习能力。由于AI大幅降低了认知任务和情感互动的阻力,其对发育中大脑的长期影响目前尚不明确,需要系统性研究加以评估。

Q3:如何推动AI公司开放数据以支持心理社会影响研究?

A:可以从两个方向着力:一是行业层面的共同行动,多家企业联合表态支持研究人员开展安全性研究,降低单个公司的"先发劣势"顾虑;二是通过法律责任机制施加压力,让公司意识到主动改善产品安全性、开放研究数据,比面临诉讼更符合自身利益。监管政策也可在条件成熟时提供制度保障。

来源:Spectrum

0赞

好文章,需要你的鼓励

2026

06/03

17:11

分享

点赞

邮件订阅