机器学习技术改进乳腺癌筛查工作流程

一项大规模评估研究显示,AI乳腺X线摄影系统在多个筛查服务中展现出提高癌症检测准确性和减少双重阅片工作负荷的潜力。该系统在独立性能评估中实现了比人工阅片更高的敏感性,癌症检测率从每千名女性7.54例提升至9.33例,并能检测出25%的间期癌症。在AI辅助工作流程中,系统可减少46%的人工阅片需求和36-44%的总阅片时间。

乳腺癌是英国35-64岁女性死亡的主要原因,但研究已确凿表明,通过乳腺X线摄影早期筛查可以挽救生命。英国国民健康服务体系(NHS)乳腺筛查项目目前依赖于双读取工作流程——两名人工乳腺X线摄影读片医师评估每个病例,并根据当地协议和两次初始读取的结果,由仲裁小组根据需要审查病例。虽然这个严格的过程非常有效,但临床放射科医师30%的短缺——预计到2028年将达到40%——威胁着该项目的长期可持续性。

研究界对探索AI帮助乳腺癌筛查过程的潜力越来越感兴趣。基于我们在该领域的早期工作,我们与几个NHS组织合作,作为乳腺X线摄影筛查中的人工智能(AIMS)研究的一部分,进一步调查AI在该领域的潜力。正如本月早些时候分享的,我们在《自然癌症》杂志上发表了两项伴随研究,评估了基于AI的乳腺癌检测系统的不同方面。在第一项研究中,我们评估了独立AI系统的性能和前瞻性整合可行性。在第二项研究中,我们进行了端到端读片医师研究,比较原始的双读取和仲裁过程与使用AI系统作为第二读取者的过程。虽然需要额外的工作来证明该系统在前瞻性临床实践中的有效性,但这些研究加强了AI在支持乳腺癌筛查中潜在益处的证据。

独立AI系统性能评估

第一项研究分为两个阶段。在第一阶段,我们对AI系统的独立性能进行了大规模多中心回顾性评估。在第二阶段,我们进行了前瞻性、非干预性部署研究,以评估将实时系统整合到真实临床工作流程中相关的可行性和挑战。

第一个回顾性阶段涉及125,000名女性的乳腺X线摄影图像(应用纳入/排除标准后为115,973名),这些女性在英国五个NHS筛查服务中心接受筛查。这些服务中心涵盖三种不同的临床工作流程,差异在于第二读取者是否对第一读取者保持盲法,以及如何选择病例进行仲裁。AI操作点(确定AI标记病例保守性的阈值)在每个筛查服务中心分别确定,以适应当地筛查人群和工作流程的差异。

研究的主要终点评估了AI系统与该病例历史(原始)第一读取者相比在检测癌症方面的敏感性和特异性。研究使用了严格的基准真值,利用39个月的随访窗口,使我们能够研究AI系统在检测间期和下轮癌症方面的增量效益,远早于它们出现临床症状。除了主要终点外,研究还评估了AI系统与第二读取者和共识读取者相比的性能,以及病灶级定位(是否识别了乳腺中的正确异常)和公平性分析。通过纳入严格的病灶级分析,我们的研究解决了AI系统是否成功定位精确感兴趣区域,而不是依赖潜在的虚假相关性的问题。研究的这一阶段是回顾性的,以便在大规模验证AI性能,不涉及收集人工读取者的任何额外解释或前瞻性部署。

在第二阶段,为了了解将AI纳入不同诊所的真实筛查工作流程的实际考虑因素,我们在伦敦2个主要筛查服务的12个筛查站点进行了前瞻性非干预性部署。这一阶段重点演示成功的技术整合,评估自动资格检查,并监测分布偏移。

在这些站点,我们在将筛查乳腺X线摄影图像传递给基于Google Cloud的安全AI系统进行处理之前对其进行假名化。这项研究还评估了迭代操作点校准过程,其中研究人员监测召回率并在研究期间调整操作点,以更好地将系统校准到当地环境并确保操作安全。

在独立性能评估中,AI系统实现了显著高于原始第一人工读取者的敏感性,而不损害特异性。总体癌症检出率从每1,000名女性7.54例上升到9.33例,关键是,AI系统能够检测出原始双读取工作流程中遗漏的25%的间期癌症。

AI在检测浸润性癌症方面特别擅长,对这些高风险癌症类型实现了优于原始人工读取者的敏感性。它在首次筛查的女性中也表现非常出色,在增加检测敏感性的同时大幅减少假阳性。探索性分析观察到在年龄、种族、乳腺密度或社会经济地位方面没有明显的系统性人口统计差异。

在前瞻性部署阶段,AI系统成功地在12个实时NHS筛查站点非干预性部署,在大约两个月的时间内在两个服务中心处理了9,266个病例。从完成筛查到完成AI读取的时间很快,中位时间为17.7分钟,相比之下,第一次人工读取超过2天。关键是,实时部署成功识别了历史训练数据和现代临床数据之间的"分布偏移"。通过暴露这种偏移,研究表明,如果伴随严格的分阶段方法来校准操作点到当地工作流程和要求,安全的AI部署可能更有效。

AI辅助双读取工作流程的读片医师研究

虽然第一项研究涉及独立性能的定量评估,但它没有解决人工读取者在仲裁过程中实际与AI输出交互时如何执行的问题。虽然以前的回顾性研究模拟了仲裁,但我们的第二项研究是一项大规模读片医师研究,其中22名人工读取者使用真实的当地筛查服务规则仲裁了数千个病例,提供了对现实世界人机交互的洞察。

这项研究涉及50,000名女性的病例(应用纳入/排除标准后为45,602名)。22名认证的乳腺X线摄影读取者审查了根据当地筛查服务规则需要仲裁的8,732个病例——一个服务规定当两个原始读取者在召回建议上不一致时进行仲裁,另一个服务规定当任一原始读取者建议召回时进行仲裁。仲裁者成对读取以模拟临床共识小组。在标准护理组中,仲裁者审查两名人工读取者的意见,在AI辅助组中,仲裁者看到第一人工读取者的意见以及AI的输出和其突出显示的感兴趣区域。然后仲裁者对是否召回该女性做出最终决定。类似于我们第一篇论文的方法,研究有一个涉及39个月随访的强健基准真值,允许研究人员追踪AI辅助工作流程是否能比标准护理更早地检测间期和下轮癌症。研究的主要终点是AI辅助护理组与标准护理组相比在病例级癌症检测敏感性和特异性方面的非劣效性。

在分析包括仲裁和非仲裁病例在内的全套病例后,我们发现AI辅助工作流程在仲裁后的总体敏感性和特异性方面在统计学上不劣于传统的双人工作流程。除了产生与传统工作流程相似的结果外,我们估计AI辅助工作流程将提供所需人工读取总数的估计46%减少。这略少于50%,因为大约8.7%的复杂病例,如涉及乳房植入物的病例,仍需要两名人工读取者。在考虑到仲裁读取比第一或第二读取者的读取更耗时后,这转化为读取者花费的总时间减少36-44%。这种为读取者节省的时间,而不相应地在结果方面妥协,有潜力帮助解决英国日益增加的病例负担危机。

虽然仲裁成功过滤掉了人工读取者和AI系统的许多假阳性,但研究揭示了一个相关的缺点:人工仲裁小组错误地否决了AI在93个阳性癌症病例上的正确召回决定,其中大多数是难以发现的间期和下轮癌症。这个结果突出了需要继续研究人工读取者如何解释和处理可能与他们自己不一致的AI预测,重点关注在专家中建立信任和改善AI结果的可解释性。

研究意义和未来方向

综合来看,这些研究表明,基于AI的筛查系统可以在个人读取中提供卓越的癌症检测性能,在英国使用的完整双读取者工作流程中提供非劣效性能。AI辅助筛查有潜力显著减少总体人工读取工作量和读取时间,同时增加癌症检出率,特别是对于浸润性癌症和首次筛查。然而,实现AI的全部潜力需要克服操作问题,如管理增加的仲裁量、改善模型可解释性,以及通过持续性能监测和当地阈值校准主动管理数据漂移。

最终,这项工作支持这样的想法:AI辅助筛查可能实现可持续的医疗保健系统,其中技术和人类专业知识协同工作,更早地检测癌症,最重要的是,拯救更多生命。

Q&A

Q1:这项AI乳腺癌筛查系统的主要优势是什么?

A:AI系统能够显著提高癌症检测敏感性,将总体癌症检出率从每1,000名女性7.54例提高到9.33例,特别能检测出原始双读取工作流程中遗漏的25%的间期癌症。同时,AI系统处理速度快,从完成筛查到AI读取的中位时间仅为17.7分钟,而人工读取需要超过2天。

Q2:AI系统能减少多少医师工作量?

A:研究显示,AI辅助工作流程可提供所需人工读取总数的46%减少,考虑到仲裁读取更耗时的因素后,可转化为读取者花费总时间的36-44%减少。这有助于缓解英国临床放射科医师30%的短缺问题,预计到2028年将达到40%。

Q3:AI系统在实际临床应用中还面临哪些挑战?

A:主要挑战包括:人工仲裁小组错误否决了AI在93个阳性癌症病例上的正确召回决定;需要管理增加的仲裁量;改善模型可解释性以增强医师信任;以及通过持续性能监测和当地阈值校准来主动管理数据漂移问题。

来源:Google

0赞

好文章,需要你的鼓励

2026

03/18

17:17

分享

点赞

邮件订阅