研究显示大语言模型超越急诊医生,协作医疗或成未来趋势

《科学》期刊最新研究显示,OpenAI的o1大语言模型在多项临床任务中表现优于人类医生,包括诊断决策、急诊分诊及后续治疗方案制定。该模型在信息有限的早期分诊阶段优势尤为突出,能更有效处理碎片化非结构化医疗数据。研究人员强调,这并不意味着AI可取代医生,而是表明医疗行业需要更严格的AI评估标准,并通过前瞻性临床试验验证其安全性与公平性。

你是否想过,人工智能在急诊诊断中与人类医生相比表现如何?本周四发表的一项新研究或许会让你重新思考这个问题。

该研究发表于《科学》期刊,结果显示,一款先进的大语言模型在多项常见临床任务中的表现超过了人类医生。研究团队使用真实急诊科数据,并与数百名医生的诊断进行对比,发现该模型在诊断决策、急诊分诊以及后续处置方案的制定上,达到甚至超越了人类临床医生的水平。

不过,研究作者强调,上述结果并不意味着大语言模型已准备好取代人类医生。相反,这些结果表明,医疗行业需要更快速、更严格的评估标准,以及明确的 AI 在医疗领域的使用规范。

研究团队测试了 OpenAI 于 2024 年发布的 o1 系列大语言模型,共设计了六项实验,将标准化临床病例与马萨诸塞州某医疗中心随机抽取的真实急诊患者数据相结合。

该模型的优势在分诊早期阶段最为突出——彼时需要在信息极为有限的情况下迅速做出决策。随着可用数据的增加,人类医生和 AI 模型的表现均有所提升,但研究发现,大语言模型在处理不确定性方面表现得更为出色,能够更有效地利用碎片化或非结构化的健康数据与医疗记录。

这些发现建立在数十年来利用复杂诊断案例评估医疗计算系统的研究基础之上。早期大语言模型已超越传统算法方法,而本研究的独特之处在于其规模之大,以及在真实临床场景中实现了人类医生与 AI 的直接对比。

研究作者同时提醒,对这些结果应保持审慎态度。医院和急诊室的实际临床工作往往依赖视觉和听觉线索,而非纯粹的文字推理,而这些是 AI 目前无法完全准确解读的。研究论文指出:"未来需要进一步研究,探索人类与机器如何在非文本信号的使用上实现有效协作。"

在考量 AI 辅助医疗时,还必须评估其安全性、公平性和成本效益,而这些方面在本研究中尚未涉及。

"简而言之,该模型的表现超过了我们规模庞大的医生基准组。你将在详细数据中看到这一点,这其中包括持有执照的执业医生,以及真实复杂的临床案例,"哈佛医学院生物医学信息学助理教授 Arjun Manrai 在一次线上新闻发布会上表示。

"我认为我们的研究结果并不意味着 AI 取代医生,尽管某些公司可能会这样宣称,并利用这些结果做文章,"Manrai 说道,"但我确实认为,我们正在见证一场深刻的技术变革,它将重塑医学领域。我们需要现在就对这项技术进行评估,并在前瞻性临床试验中严格开展研究。"

监管机构、医院和医疗服务提供方应携手合作,在部署这些工具之前进行充分测试,以确保所有患者的安全与公平。

同日,澳大利亚弗林德斯大学研究人员 Ashley M. Hopkins 与 Eric Cornelisse 在《科学》期刊发表的一篇评论文章中指出,该研究是推动医疗 AI 系统评估体系完善的重要一步,但医学是一个复杂领域,需要严格的监督机制,以确保患者获得尽可能优质的医疗服务。

"我们不允许医生在没有监督和评估的情况下执业,AI 也应当接受同等标准的约束,"Cornelisse 在一份声明中表示。

Q&A

Q1:这项研究中测试的大语言模型具体表现如何?

A:研究使用 OpenAI 的 o1 系列大语言模型,在诊断决策、急诊分诊和后续处置方案等多项临床任务中,其表现达到甚至超越了人类医生。尤其在分诊早期阶段,面对信息不足的情况下,大语言模型处理不确定性的能力明显优于人类医生,能更有效地利用碎片化或非结构化的健康数据。

Q2:大语言模型超越医生,是否意味着 AI 很快会取代医生?

A:研究作者明确表示,这一结果并不代表 AI 已准备好取代医生。实际临床工作依赖视觉和听觉等非文本信号,是 AI 目前无法完全解读的。研究呼吁在前瞻性临床试验中严格评估 AI,并建立更完善的监管标准,确保 AI 辅助医疗的安全性、公平性和成本效益。

Q3:AI 在医疗领域的应用需要满足哪些条件才能被推广?

A:研究指出,监管机构、医院和医疗服务提供方需要在部署 AI 工具之前进行充分测试。评估标准应涵盖安全性、公平性和成本效益等方面,同时应像对待医生一样,对 AI 实施同等水平的监督与评估机制,并在正式临床试验中验证其实际效果。

来源:cnet

0赞

好文章,需要你的鼓励

2026

05/06

12:32

分享

点赞

邮件订阅