十多年来,研究人员一直在思考人工智能是否能够帮助预测失去行为能力的患者在医生必须代表他们做出生死决定时可能希望得到什么。
这仍然是当今医疗保健AI领域最高风险的问题之一。但随着AI技术的改进,一些专家越来越认为,患者的数字"克隆体"有朝一日将不可避免地帮助家庭成员、医生和伦理委员会做出符合患者价值观和目标的临终决定。
Ars与正在进行或密切关注这项研究的专家进行了交流,他们确认目前还没有医院部署所谓的"AI智能体"。但AI研究员Muhammad Aurangzeb Ahmad正致力于改变这种状况,他正在迈出在美国医疗机构试点AI智能体的第一步。
"这是非常新的领域,所以很少有人在研究它,"Ahmad告诉Ars。
Ahmad是华盛顿大学医学院创伤科的常驻研究员。他的研究基地位于西雅图的哈勃维医疗中心,这是华盛顿大学医学院健康系统的一家公立医院。华盛顿大学医学院与"世界上最大的医学研究项目之一"相结合,致力于改善公共健康结果,华盛顿大学的网站说。
Ahmad告诉Ars,华盛顿大学并没有专门寻找研究员来实验AI智能体。但自从他的项目提案被接受以来,他今年大部分时间都在"概念阶段",致力于基于哈勃维患者数据测试AI模型的准确性。
Ahmad说,这种测试的主要限制是,只有当患者存活下来并且后来能确认模型做出了正确选择时,他才能验证模型的准确性。但他说这只是第一步。准确性测试随后可以扩展到网络中的其他设施,目标是开发能够准确预测患者偏好"三分之二"时间的AI智能体。
目前,Ahmad的模型专注于分析哈勃维已经收集的数据,如受伤严重程度、病史、既往医疗选择和人口统计信息。
"我们使用这些信息,将其输入机器学习预测模型,然后在回顾性数据中观察模型的表现如何,"Ahmad说。
他确认,还没有患者与Ahmad的模型进行过交互。华盛顿大学医学院发言人Susan Gregg告诉Ars,"启动前还有相当多的工作要完成",该系统"只有在经过多阶段审查程序后才会被批准"。
"我们还没有在哈勃维招募任何患者,"Ahmad说。"我们仍然处于定义范围和考虑理论因素的阶段。考虑到所涉及的挑战,距离实施还需要一段时间。"
不过,Ahmad设想未来的模型还将分析文本数据,也许来自患者批准的与医生录制的对话,以告知其AI副本的预测。在那个世界里,值得信赖的人类智能体,如家庭成员,可以从与患者的聊天或短信中提供其他文本数据。在技术最"理想"的形式中,Ahmad认为患者将在整个生命过程中与AI系统互动,提供反馈来完善模型,因为患者在健康系统中老化。
"获得相关数据需要时间,"Ahmad说。
在患者开始与AI智能体互动之前,任何人体测试都需要得到机构审查委员会(IRB)的批准,Ahmad说。
最终,他预计AI智能体不会是一个完美的模型,而是一套经过严格测试的系统,医生和亲人在评估关于患者在关键时刻想要什么的所有已知信息时可以咨询。
医院是否会采用这样的系统尚不清楚。"在这个领域,从业者更加保守,我甚至认为这是正确的,"Ahmad说。
Gregg告诉Ars,华盛顿大学医学院支持"对创新想法的深思熟虑的探索,比如在临终护理中负责任和透明地使用AI智能体的潜力",因为它们反映了"我们对推进医学科学和同情心的承诺"。
"虽然临终决策代表一个特别复杂的领域,但我们认为这些决定对于解决重要问题至关重要,比如当患者可能无法直接沟通他们的意愿或没有近亲代表他们这样做时,如何最好地尊重患者的意愿,"Gregg说。
没有人类智能体的患者,AI是否不合适?
当患者无法为自己说话时,医生总是很难确定患者想要什么。例如,如果患者表达过希望避免生命末期的不适,他们可能拒绝使用呼吸机或接受透析或心肺复苏术(CPR)。其他人可能担心感染等并发症,或者不愿意依赖机器维持生命。一些患者,如卷入事故的年轻人,可能从未表达过偏好。
宾夕法尼亚州重症监护室的医生Emily Moin告诉Ars,时间是这些决定中的一个因素,但必须让可能更好地理解患者意愿的人类智能体参与进来。
"当我们处于这些快节奏的情况下,我们不知道,但我们面前有一个已经死亡的患者时,我们会倾向于提供[CPR],直到我们能够得出临床判断认为这种努力不再有指征,或者直到我们能够与智能体决策者接触,"Moin解释说。
她说,联系智能体是"照顾某人的重要组成部分"。
Ahmad希望AI能够帮助减轻不确定时刻的压力。对于医生和智能体来说,这些决定可能"在情感上非常沉重,"Ahmad告诉Ars,导致许多人质疑患者会选择什么。他说,一些研究表明智能体经常弄错,他相信AI可以帮助提高成功的几率。
为了从根本上解决这个问题,健康系统历来推动患者完成"预先指示"来记录他们的偏好。然而,随着时间的推移,很明显患者的偏好往往是不稳定的,有时在几天内就会改变。
医生还必须考虑一些患者没有明确的偏好。Moin说,其他人报告说,在接受救生治疗后他们的偏好发生了变化,因为他们现在知道会发生什么。Ahmad计划的测试可能还有其他限制,该测试将通过检查AI的决定是否与患者在康复后说他们想要的匹配来确定准确性,Moin说。
"这些决定是动态构建和依赖于上下文的,"Moin说。"如果你通过询问某人在康复后他们在康复前会说什么来评估模型的性能,那不会为你提供准确的表示。"
Moin说医疗AI的一个大问题是人们期望它"提供比我们目前能够生成的更好的预测"。但是模型正在"方便的基本事实"上进行训练,她说,这些事实不能"为模型学习将要使用模型的情况提供有意义的例子"。
"我想象他们实际上想要部署这个模型来帮助为无代表的患者、无法沟通的患者、没有智能体的患者做出决定,"Moin说,"但这些恰恰是你永远无法知道所谓基本事实是什么的患者,然后你永远无法评估你的偏见,你永远无法评估你的模型的性能。"
家庭成员可能默认同意AI
在文化上,美国已经从"非常关注患者自主权"转向"更多的共同决策,有时是以家庭和社区为重点的视角"作为做出这些困难决定的标准,Moin说。
医生了解患者的时间越长,患者的健康团队与家庭成员的对话越多,健康系统就越有可能能够适应随着时间的推移尊重患者意愿的方式,Moin建议。
这个想法与Ahmad的"理想"AI智能体模型相呼应。但Moin说,如果患者与AI交谈,实际上可能会阻止他们与家庭成员进行重要对话。研究发现,如果患者填写预先指示,可能会更难确定他们的偏好,Moin说,因为患者可能不太愿意与亲人讨论他们的偏好。
今年早些时候,Moin敦促人类智能体继续密切参与不复苏令,写道单方面做出这些决定的医生有道德义务"确保患者和智能体决策者意识到已经做出了决定",并面临"表达异议的最低障碍"。
"放弃CPR是患者或智能体可以做出的最重要的治疗决定之一,因为如果实施,它必然会导致死亡,"Moin写道。
Moin告诉Ars,她希望AI智能体的输出永远不会比基于与患者生活经验的人类智能体的意见更重要。"但我确实担心可能会有文化转变和其他压力,这会鼓励临床医生和家庭成员更多地依赖这样的产品,"她说。
"我可以想象这样一个场景,比如说,医生被期望在一天内查房24名危重患者,而家庭成员不愿意坐下来谈话,"Moin说。"所以是的,也许所有相关方都会默认使用来自这个模型的信息的捷径。"
Moin呼吁对AI智能体进行更多的公众意识和辩论,指出"人们真的讨厌"使用算法来确定谁获得护理。
"我不认为这对患者、临床医生或社会都有好处,"Moin说。
她特别担心"无法为自己说话且没有明确亲人的患者"将是"最容易遭受AI智能体做出错误决定伤害的人"。太多这样的错误可能会进一步削弱对健康系统的信任,Moin说。
AI智能体可能是多余的
这些决定对所有相关人员来说都是"在心理社会方面充满困难的",旧金山退伍军人医疗中心的住院医师Teva Brender告诉Ars。这就是为什么像Ahmad这样的测试很重要,他说。
去年,Brender与他人合作撰写了一篇观点文章,指出"家庭为失去行为能力的患者做决定有多困难",特别是在老年病学、姑息治疗和重症护理环境中。
"对许多人来说,将AI纳入护理目标对话的概念会唤起反乌托邦未来的噩梦般愿景,在这个未来中,我们将深刻的人类决定托付给算法,"Brender的团队写道。"我们分享这些担忧。"
但是考虑到医生和智能体的预测面临重大限制,"我们有义务考虑如何安全、道德和公平地部署AI来帮助重病人员的智能体,"Brender的团队得出结论。
Brender告诉Ars,"同样重要"的是帮助患者选择智能体并准备他们替代自己的判断。
Brender认为Ahmad的研究是值得的,因为有"很多问题"需要科学研究。但他"很高兴听到"AI智能体"实际上还没有在哈勃维的患者中使用"。"我无法想象IRB会在这么早的阶段批准这样的事情,"他告诉Ars。
Brender说,AI智能体最终可能发挥多余的作用,导致AI的这种潜在用途失宠。
"魔鬼代言人的观点,"Brender说,是AI智能体只是在做"好临床医生无论如何都会做的事情",即询问智能体,"嘿,这个人是谁?他们喜欢做什么?什么给他们的生活带来了意义?"
"你需要AI来做这件事吗?"Brender问道。"我不太确定。"
医生警告AI无法取代人类智能体
上个月,生物伦理学专家Robert Truog与致力于推进姑息治疗以改善遭受危及生命疾病的人的生活质量的医生R. Sean Morrison一起强调,AI永远不应该在复苏决定中取代人类智能体。
"关于假设情景的决定与需要实时做出的决定不相关,"Morrison告诉Ars。"AI无法解决这个根本问题——这不是更好预测的问题。患者的偏好往往代表一个时间点的快照,根本无法预测未来。"
这个警告是在慕尼黑工业大学AI和神经科学伦理学主席的医生兼高级研究员Georg Starke与他人合作撰写了一个概念证明后发出的,该证明显示三个AI模型平均比人类智能体在预测患者偏好方面表现更好。
Starke的研究依赖于来自欧洲调查的瑞士受访者的现有数据,该调查跟踪了50岁以上个人的人口健康趋势。数据集提供了"关于参与者临终偏好的全面信息,包括关于"CPR的问题。这使团队能够构建三个模型:一个简单模型、一个基于常用电子健康记录的模型和一个更"个性化"的模型。每个模型都成功预测了经历心脏骤停的患者是否想要CPR,准确率高达70%。
他的团队的研究旨在"在经验数据中建立长期存在的伦理辩论,"Starke告诉Ars。
"十多年来,人们一直在推测使用算法来改善失去行为能力患者的临床决策,但没有人显示这样的程序是否真的可以设计出来,"Starke说。"我们的研究旨在测试这是否可行,探索它的表现如何,确定哪些因素影响模型的决定,并引发关于该技术的更广泛辩论。"
仅依赖于"'准确性'"的AI模型的一个关键限制——特别是如果该"准确性"是"通过偶然或通过模式匹配纯粹在个人控制之外的人口统计数据实现的"——是输出不"一定反映自主选择,"Starke说。
像Truog和Morrison一样,Starke的团队强调"人类智能体将仍然是特定情况上下文方面的基本来源",特别是对于痴呆症患者,并同意AI模型"不应该取代智能体决策"。
聊天机器人智能体可能是坏的
人类智能体将来可能会信任AI系统,但"这都取决于信息是如何呈现的,"住院医师Brender告诉Ars。
他认为AI系统最好作为讨论的"发射台",为智能体提供考虑哪些数据对患者可能重要的方式。
但他同意Moin的观点,即如果不透明AI智能体如何得出决定,AI可能会播下不信任的种子。
例如,想象一下,如果AI系统不知道可能完全改变患者预后的癌症新疗法。Brender建议,如果医院投资AI来改善预后,而不是"字面上预测患者想要什么",患者可能会得到更好的服务。Truog和Morrison还建议,像Ahmad这样的AI研究可以帮助医院确定哪些类型的患者往往随着时间的推移有更稳定的偏好。
Brender建议,如果AI智能体以聊天机器人界面呈现,导致医生和家庭成员对算法"过度信任",可能会出现噩梦般的情景。这就是为什么如果这项技术被部署,透明度和严格测试将是至关重要的,他说。
"如果黑盒算法说祖母不想要复苏,我不知道那是否有帮助,"Brender说。"你需要它是可解释的。"
AI智能体偏见的研究不存在
Ahmad同意人类应该始终在循环中。他强调他并不急于部署他的AI模型,这些模型仍然处于概念阶段。使他的工作复杂化的是,目前在使用AI智能体方面几乎没有探索偏见和公平性的研究。
Ahmad旨在通过本周发布的预印本论文开始填补这一空白,该论文描绘了各种公平概念,然后检查跨道德传统的公平性。最终,Ahmad建议,在使用AI智能体方面的公平性"超越结果的平等,包含道德代表性、对患者价值观、关系和世界观的忠实"。
"核心问题不仅变成'模型是无偏见的吗?'而是'模型居住在谁的道德宇宙中?'"Ahmad写道,提供了一个例子:
考虑以下情况:两个类似临床档案的患者可能在道德推理上有所不同,一个被自主权指导,另一个被家庭或宗教义务指导。在算法术语中以"类似"方式对待他们将构成道德抹杀。个体公平性需要整合价值敏感的特征,如记录的精神偏好或关于舒适的陈述,而不违反隐私。
Ahmad建议,如果这种技术真的发生,可能需要十多年才能部署给患者,因为对于AI模型来说,训练计算像一个人的价值观和信念这样复杂的东西是多么具有挑战性。
"这就是事情变得真正复杂的地方,"Ahmad告诉Ars,指出"有社会规范,然后在特定宗教群体内有规范。"
考虑一个"极端例子,"Ahmad说。想象医生可能面临的难题,如果他们试图决定是否应该让一个卷入事故的怀孕妇女停止使用呼吸机,因为过时的记录显示她曾经标记过这是她的偏好。像她的伴侣或家庭成员这样的人类智能体可能能够代表她倡导继续使用呼吸机,特别是如果这个女人持有反堕胎观点,他说。
没有人类智能体,医生可以求助于AI来帮助他们做决定,但只有当AI系统能够基于"从数据、临床变量、人口统计信息、临床笔记中的语言标记,以及可能患者的数字足迹中学到的模式"捕捉患者的价值观和信念时,Ahmad的论文解释说。
然后是AI模型"有些脆弱"的问题,Ahmad说,如果问题的措辞略有不同或以模型不理解的"聪明"方式,可能会给出"非常不同的答案"。
Ahmad没有回避他所说的"工程价值观问题"。为了更好地理解其他研究人员如何处理这个问题以及患者对AI智能体可能有什么期望,Ahmad最近参加了在德克萨斯州达拉斯举行的关于AI的福音派基督教会议。在那里,似乎很清楚,在AI智能体被整合到医院的未来中,一些患者可能对大语言模型能够复制他们内心真理的程度有很高的期望。
"真正突出的一件事是人们——特别是当涉及到大语言模型时——有很多关于拥有反映他们价值观的大语言模型版本的讨论,"Ahmad说。
Starke告诉Ars,他认为至少从临床角度来看,基于最易获得的电子健康记录构建模型是理想的。不过,为了最好地为患者服务,他同意Ahmad的观点,认为"理想的数据集将是大型、多样化、纵向和专门构建的"。
"它将结合人口统计和临床变量、记录的预先护理规划数据、患者记录的价值观和目标,以及关于具体决定的上下文信息,"他说。
"包括文本和对话数据可以进一步增强模型学习偏好为什么产生和改变的能力,而不仅仅是患者在单一时间点的偏好是什么,"Starke说。
Ahmad建议未来的研究可以专注于在临床试验中验证公平性框架,通过模拟评估道德权衡,以及探索跨文化生物伦理学如何与AI设计相结合。
只有到那时,AI智能体才可能准备好被部署,但只能作为"决策辅助",Ahmad写道。任何"争议输出"应该自动"触发[伦理]审查",Ahmad写道,得出结论"最公平的AI智能体是邀请对话、承认怀疑并为护理留出空间的智能体"。
"AI不会赦免我们"
Ahmad希望在未来五年内在华盛顿大学的各个站点测试他的概念模型,这将提供"某种量化这项技术有多好的方法",他说。
"在那之后,我认为作为一个社会,我们如何决定整合或不整合这样的东西,这是一个集体决定,"Ahmad说。
在他的论文中,他警告不要使用可能被解释为患者模拟的聊天机器人AI智能体,预测未来的模型甚至可能用患者的声音说话,并建议这些工具的"舒适和熟悉"可能模糊"援助和情感操纵之间的界限"。
Starke同意需要更多的研究和患者与医生之间"更丰富的对话"。
"我们应该谨慎,不要不加区别地应用AI作为寻找问题的解决方案,"Starke说。"AI不会赦免我们做出困难的伦理决定,特别是关于生死的决定。"
生物伦理学专家Truog告诉Ars,他"可以想象AI有一天可能""为智能体决策者提供一些有趣的信息,这将是有帮助的"。
但Truog的社论说,"所有这些路径的问题……是它们将是否进行CPR的决定框架为二元选择,无论上下文或心脏骤停的情况如何"。"在现实世界中,当患者失去意识时,'患者是否想要进行CPR'这个问题的答案,'在几乎所有情况下,'都是'这取决于情况'"。
当Truog思考他可能最终陷入的情况类型时,他知道他不会只是考虑自己的价值观、健康和生活质量。他的选择"可能取决于我的孩子们的想法"或"对我的预后细节的财务后果会是什么",他告诉Ars。
"我希望我的妻子或另一个了解我的人做出这些决定,"Truog说。"我不希望有人说,'好吧,这是AI告诉我们的。'"
Q&A
Q1:什么是AI智能体?它在医疗决策中能发挥什么作用?
A:AI智能体是指能够帮助预测失去行为能力患者意愿的人工智能系统。当患者无法为自己做决定时,这些数字"克隆体"可以协助家庭成员、医生和伦理委员会做出符合患者价值观和目标的临终决定。目前仍处于研究阶段,没有医院正式部署这种技术。
Q2:AI智能体预测患者意愿的准确率有多高?
A:根据最新研究,AI模型在预测患者是否愿意接受心肺复苏术方面的准确率可达70%。研究人员Muhammad Aurangzeb Ahmad的目标是开发能够准确预测患者偏好"三分之二"时间的AI智能体。不过,专家指出患者偏好往往不稳定,有时在几天内就会改变。
Q3:使用AI智能体进行医疗决策存在什么风险和争议?
A:主要风险包括:AI可能无法准确捕捉患者复杂的价值观和信念;可能导致医生和家属过度依赖算法而忽视人际沟通;对于没有人类智能体的患者,错误决策可能造成更大伤害。专家强调AI应该只作为决策辅助工具,不能取代人类智能体的判断。
好文章,需要你的鼓励
研究人员正探索AI能否预测昏迷患者的医疗意愿,帮助医生做出生死决策。华盛顿大学研究员Ahmad正推进首个AI代理人试点项目,通过分析患者医疗数据预测其偏好。虽然准确率可达三分之二,但专家担心AI无法捕捉患者价值观的复杂性和动态变化。医生强调AI只能作为辅助工具,不应替代人类代理人,因为生死决策依赖具体情境且充满伦理挑战。
哥伦比亚大学研究团队开发了MathBode动态诊断工具,通过让数学题参数按正弦波变化来测试AI的动态推理能力。研究发现传统静态测试掩盖了AI的重要缺陷:几乎所有模型都表现出低通滤波特征和相位滞后现象,即在处理快速变化时会出现失真和延迟。该方法覆盖五个数学家族的测试,为AI模型选择和部署提供了新的评估维度。
麻省理工学院研究发现过度依赖AI会导致认知债务,削弱基本思维能力。研究表明交替进行无辅助思考和AI支持工作的模式能保持认知敏锐度。这种认知高强度间歇训练模仿体能训练中的HIIT模式,通过短时间高强度思考与恢复期交替进行,可以强化大脑神经回路,防止认知衰退,提升独立思考能力。
这项研究首次发现AI推理模型存在"雪球效应"问题——推理过程中的小错误会逐步放大,导致AI要么给出危险回答,要么过度拒绝正常请求。研究团队提出AdvChain方法,通过训练AI学习"错误-纠正"过程来获得自我纠错能力。实验显示该方法显著提升了AI的安全性和实用性,用1000个样本达到了传统方法15000个样本的效果,为AI安全训练开辟了新方向。