谷歌发布MedGemma 1.5医疗影像解读模型和MedASR语音转文本系统

谷歌更新开源MedGemma模型,推出MedGemma 1.5 4B版本,新增三维CT、MRI和全切片病理学影像支持。同时发布MedASR医学语音转文本模型,专门针对医学听写优化。新版本在医学文本、影像解读等核心功能上显著提升准确性,并宣布启动10万美元奖金的MedGemma影响力挑战赛。

谷歌正在更新开源MedGemma模型,新增强的医疗影像支持功能。同时发布MedASR,这是一款全新的开源医疗语音转文本模型。

人工智能在医疗保健领域的应用正在急剧加速,医疗行业采用人工智能的速度是整体经济的两倍。为支持这一转型,谷歌去年通过健康AI开发者基础项目发布了MedGemma开源医疗生成式AI模型集合。MedGemma等模型旨在为开发者提供起点,用于评估和适应其医疗用例,并可通过Vertex AI在谷歌云上轻松扩展。MedGemma发布后反响强烈,下载量达数百万次,在Hugging Face上发布了数百个社区构建的变体。

今天,谷歌基于这一势头发布了MedGemma 1.5 4B,并在Kaggle上启动MedGemma影响力挑战黑客马拉松。在社区直接反馈指导下,此次模型更新使开发者能够更有效地将MedGemma适配到涉及多种医疗影像模态的应用中。

MedGemma 1.5多模态医疗影像功能升级

MedGemma从零开始就被设计为多模态模型,反映了医学的多模态特性。MedGemma 1包含对二维医疗图像的解读支持,包括胸部X光、皮肤病学图像、眼底图像和组织病理学切片。

通过MedGemma 1.5,谷歌正在扩展对高维医疗影像的支持,首先是CT影像和MRI的三维体积表示,以及全切片组织病理学影像。开发者可以创建应用程序,其中多个切片(用于CT或MRI)或多个切片(用于组织病理学)与描述任务的提示一起作为输入提供。

在内部基准测试中,MedGemma 1.5在疾病相关CT发现分类上的基线绝对准确率比MedGemma 1提高了3%(61%对58%),在疾病相关MRI发现分类上提高了14%(65%对51%)。此外,在内部多样化组织病理学切片及相关发现基准测试中,MedGemma 1.5预测的保真度基于ROUGE-L评分提高了0.47(0.49对0.02)。

医疗文本处理能力显著提升

除了改进的医疗图像支持外,谷歌还努力改进MedGemma的基线医疗文本功能。通过添加新的训练数据集和训练技术,MedGemma 1.5 4B在MedQA上比MedGemma 1 4B提高了5%(69%对64%),在基于文本的电子健康记录问答EHRQA上提高了22%(90%对68%)。

MedASR医疗语音识别新突破

虽然文本目前是大语言模型的主要接口,但语言交流在医疗保健的许多方面仍然至关重要,包括医疗听写和患者与医护人员之间的实时对话。语音还提供了与语言模型交互的更自然方式。

为支持这些需要模型熟悉医疗保健专业词汇的用例,谷歌开发了MedASR语音转文本模型来转录医疗领域的语音。MedASR与通用ASR模型Whisper large-v3相比,在胸部X光听写上错误减少了58%(5.2%对12.5%词错误率),在包含不同专业和说话者的内部医疗听写基准上错误减少了82%(5.2%对28.2%词错误率)。

全球应用案例展示实际价值

谷歌看到世界各地的健康科技初创公司和开发者利用MedGemma加速其研究和产品开发。例如,Qmed Asia将MedGemma适配到askCPG中,这是马来西亚150多个临床实践指南的对话界面。根据马来西亚卫生部,该对话界面使导航马来西亚临床实践指南在日常临床决策支持中更加实用。

此外,台湾健保署将MedGemma应用于评估肺癌手术的术前评估。通过使用MedGemma从30000多份病理报告和非结构化数据中提取关键数据,他们进行统计分析以评估患者的术前医疗状况。

模型获取和未来展望

用户可以通过Hugging Face集合或谷歌云上的Vertex AI访问所有MedGemma变体。MedASR目前在Hugging Face和Vertex AI上可用。为展示下一代医疗AI应用的想法,可以查看MedGemma影响力挑战赛。

需要注意的是,HAI-DEF模型(包括MedGemma和MedASR)旨在作为起点使用,不适合在没有适当验证、适配和/或开发者针对特定用例进行有意义修改的情况下直接使用。这些模型生成的输出不应直接用于临床诊断、患者管理决策、治疗建议或任何其他直接临床实践应用。

Q&A

Q1:MedGemma 1.5相比前代版本有哪些主要改进?

A:MedGemma 1.5主要在三个方面有重大改进:首先是新增高维医疗影像支持,包括CT和MRI的三维体积表示以及全切片组织病理学影像;其次是医疗文本处理能力显著提升,在MedQA上提高5%,在电子健康记录问答上提高22%;最后是增强了对多种医疗影像模态的解读能力,为开发者提供更全面的医疗AI工具。

Q2:MedASR医疗语音识别模型的准确率如何?

A:MedASR在医疗语音识别方面表现出色。与通用模型Whisper large-v3相比,MedASR在胸部X光听写上错误率降低58%(从12.5%降至5.2%),在包含不同医疗专业和说话者的综合测试中错误率降低82%(从28.2%降至5.2%)。这使其成为专门针对医疗领域优化的高精度语音转文本解决方案。

Q3:如何获取和使用MedGemma和MedASR模型?

A:开发者可以通过两个主要渠道获取这些模型:一是通过Hugging Face平台下载开源版本,二是通过谷歌云的Vertex AI服务进行云端部署和扩展。所有HAI-DEF模型(包括MedGemma和MedASR)均免费提供研究和商业使用。谷歌还提供了详细的教程笔记本帮助开发者快速上手,同时可参与MedGemma影响力挑战赛探索创新应用。

来源:Google

0赞

好文章,需要你的鼓励

2026

01/14

08:10

分享

点赞

邮件订阅