基于放射影像的临床诊断中，AI模型尚未达到实际应用水平

新研究通过 DeepTumorVQA 基准测试表明，尽管 AI 在基本识别和测量任务上有一定表现，但在复杂医学推理上仍远落后于临床要求，难以取代医生的诊断判断。

一项新研究显示，基于放射影像进行临床诊断的 AI 模型尚未成熟。

研究人员常认为放射学是 AI 有潜力革新的领域，因为视觉或多模态模型在识别图像方面表现出色。基于充分的训练，假设 AI 模型能够像医学专家一样准确读取 X 光片和计算机断层扫描 (CT) 图像。

为了验证这一假设，来自 Johns Hopkins University、University of Bologna、Istanbul Medipol University 和 Italian Institute of Technology 的研究人员认为，首先需要构建一个更好的基准测试来评估视觉语言模型。

作者 Yixiong Chen, Wenjie Xiao, Pedro R. A. S. Bassi, Xinze Zhou, Sezgin Er, Ibrahim Ethem Hamamci, Zongwei Zhou 和 Alan Yuille 在题为 "Are Vision Language Models Ready for Clinical Diagnosis? A 3D Medical Benchmark for Tumor-centric Visual Question Answering"（视觉语言模型准备好用于临床诊断了吗？以肿瘤为中心的 3D 医学视觉问答基准）的预印本论文中解释了多个原因。

首先，大多数现有临床数据集规模较小且记录不够多样化，科学家们认为这是由于让专家标注数据所需的高成本和耗时所致。

其次，这些数据集通常依赖 2D 数据，这意味着 AI 有时无法从 3D CT 扫描中获得学习资源。

第三，用于自动评估机器学习模型的算法，如 BLEU 和 ROUGE，在处理简短且基于事实的医学答案时表现不佳。

此外，现有数据集可能采用了私有和机构内部的数据，这些数据无法供后续研究使用。

因此，作者开发了 DeepTumorVQA——一个专注于 CT 扫描中腹部肿瘤的诊断视觉问答 (VQA) 基准测试。

DeepTumorVQA 基于来自 17 个公共数据集的 9,262 个 CT 体积（共 3.7M 切片）构建，并辅以 395,000 个专家级问题，涉及识别、测量、视觉推理和医学推理四个类别。

23 位持证放射科医师花费六个月时间手动标注了患者肝脏、肾脏、胰腺和结肠上 3D 图像中显示的 7,629 个病灶，随后他们还共同核对标注以达成共识。病灶指的是扫描中显示的异常组织，诊断可以确定其是良性还是恶性。

依托这一基准数据，研究人员着手评估五个专为医疗设计的视觉模型：RadFM、M3D（其中一个基于 Llama2，另一个基于 Phi-3）、Merlin 和 CT-CHAT。

图表展示了 DeepTumorVQA 的问题（点击放大）。

作者从四个类别对这些模型进行了评估：器官和病灶体积测量的准确性；识别诸如病灶等特征的能力；基于视觉信息进行推理的能力（例如判断两只肾脏中哪只较大）；以及医学推理（例如鉴别某一病灶是良性囊肿还是恶性肿瘤）。

符合 Betteridge 定律，作者对 “视觉语言模型是否准备好进行临床诊断？” 的回答是 “不”。

在测量任务中，这些模型的表现明显优于随机猜测；尽管在计数任务中，当以多选题形式呈现时，它们表现优于自由回答形式。

而在识别任务中，模型表现则相对逊色。所有模型均能识别病灶、囊肿与肿瘤，成功率在 65% 到 86% 不等，但研究人员发现这些模型的回答未能捕捉到细微的视觉线索。

在视觉推理任务中，模型在多步推理上表现尚可，但在肾脏体积对比等任务上存在困难，研究人员归因于 “双侧推理和精确定位的难度”。

被测试的模型在医学推理方面遇到的难题最多，研究人员指出这是因为此类任务要求整合训练数据中未曾涉及的信息。

作者总结道：“总体来看，虽然现代视觉语言模型在基础及识别密集型任务中展现出潜力，但其在实际诊断中的应用目前仍受限于弱视觉信号、不可靠的数值处理以及肤浅的推理链。”

AI 可以在辅助角色上帮助临床医师，但尚不足以取代医学专家的判断。 (R)

来源：The Register

0赞

好文章，需要你的鼓励

基于放射影像的临床诊断中，AI模型尚未达到实际应用水平

来源：The Register

2025

05/29

09:58

分享

点赞

智能体驱动全球创新浪潮，微软携手前沿伙伴迈进消费电子新未来

达索系统在CES 2026上展示AI驱动的医疗创新， 重塑精准、可预测与个性化医疗

Arm 发布 20 项技术预测：洞见 2026 年及未来发

美光推出全球首款面向客户端计算的 PCIe 5.0 QLC SSD

SanDisk重塑经典SSD品牌：WD Black和Blue正式更名为Optimus系列

福特汽车准备在车载系统中引入AI智能助手

ChatGPT推出健康模式：结合医疗数据提供个性化建议

福特推出AI数字助理及新一代BlueCruise自动驾驶技术

联想Legion Pro可卷曲概念机展现移动大屏游戏新体验

印度和新加坡在智能体AI采用方面超越全球同行

华硕CES 2026新品：更小巧的ProArt GoPro笔记本和升级版Zenbook Duo

n8n警告CVSS满分漏洞影响自托管和云版本

Nvidia 与瑞典财团合作：AI 工厂重新定义经济

VAST Data 挑战企业 AI 工厂

人人都在追逐 vibe coding——Google 推出 Stitch，继 Jules 之后的新作

外包信心：下一个大热 AI 趋势？

PEAK:AIO 利用 CXL 内存拯救受 HBM 限制的 AI 模型

人工智能可能已经在缩减科技行业的入门级岗位，新研究显示

Salesforce斥资80亿美元收购Informatica对企业数据与 AI 的意义

OnePlus 全力投身 AI 革新

Mistral 推出 API 构建能够运行 Python、生成图像、执行 RAG 等任务的 AI 代理

利用数据科学实现医疗健康的超大规模扩展

如果您非常迫切的想了解IT领域最新产品与技术信息，那么订阅至顶网技术邮件将是您的最佳途径之一

2025 re:Invent ：亚马逊云科技把Agentic AI生态梳理明白了

电子竞技瞬息万变，Team Liquid的“数据+AI”制胜秘籍

中国移动呼和浩特数据中心：只有高效存力先行，AI才能跑出全力

从“支撑工具”到“智能中枢”，AI原生ERP进化

关注官方公众号

关注官方微博

关注官方喜马拉雅

友情链接

业界热点:

达索系统在CES 2026上展示AI驱动的医疗创新，重塑精准、可预测与个性化医疗