谷歌发布MedGemma 1.5医疗影像解读模型和MedASR语音转文本系统

谷歌更新开源MedGemma模型，推出MedGemma 1.5 4B版本，新增三维CT、MRI和全切片病理学影像支持。同时发布MedASR医学语音转文本模型，专门针对医学听写优化。新版本在医学文本、影像解读等核心功能上显著提升准确性，并宣布启动10万美元奖金的MedGemma影响力挑战赛。

谷歌正在更新开源MedGemma模型，新增强的医疗影像支持功能。同时发布MedASR，这是一款全新的开源医疗语音转文本模型。

人工智能在医疗保健领域的应用正在急剧加速，医疗行业采用人工智能的速度是整体经济的两倍。为支持这一转型，谷歌去年通过健康AI开发者基础项目发布了MedGemma开源医疗生成式AI模型集合。MedGemma等模型旨在为开发者提供起点，用于评估和适应其医疗用例，并可通过Vertex AI在谷歌云上轻松扩展。MedGemma发布后反响强烈，下载量达数百万次，在Hugging Face上发布了数百个社区构建的变体。

今天，谷歌基于这一势头发布了MedGemma 1.5 4B，并在Kaggle上启动MedGemma影响力挑战黑客马拉松。在社区直接反馈指导下，此次模型更新使开发者能够更有效地将MedGemma适配到涉及多种医疗影像模态的应用中。

MedGemma 1.5多模态医疗影像功能升级

MedGemma从零开始就被设计为多模态模型，反映了医学的多模态特性。MedGemma 1包含对二维医疗图像的解读支持，包括胸部X光、皮肤病学图像、眼底图像和组织病理学切片。

通过MedGemma 1.5，谷歌正在扩展对高维医疗影像的支持，首先是CT影像和MRI的三维体积表示，以及全切片组织病理学影像。开发者可以创建应用程序，其中多个切片（用于CT或MRI）或多个切片（用于组织病理学）与描述任务的提示一起作为输入提供。

在内部基准测试中，MedGemma 1.5在疾病相关CT发现分类上的基线绝对准确率比MedGemma 1提高了3%（61%对58%），在疾病相关MRI发现分类上提高了14%（65%对51%）。此外，在内部多样化组织病理学切片及相关发现基准测试中，MedGemma 1.5预测的保真度基于ROUGE-L评分提高了0.47（0.49对0.02）。

医疗文本处理能力显著提升

除了改进的医疗图像支持外，谷歌还努力改进MedGemma的基线医疗文本功能。通过添加新的训练数据集和训练技术，MedGemma 1.5 4B在MedQA上比MedGemma 1 4B提高了5%（69%对64%），在基于文本的电子健康记录问答EHRQA上提高了22%（90%对68%）。

MedASR医疗语音识别新突破

虽然文本目前是大语言模型的主要接口，但语言交流在医疗保健的许多方面仍然至关重要，包括医疗听写和患者与医护人员之间的实时对话。语音还提供了与语言模型交互的更自然方式。

为支持这些需要模型熟悉医疗保健专业词汇的用例，谷歌开发了MedASR语音转文本模型来转录医疗领域的语音。MedASR与通用ASR模型Whisper large-v3相比，在胸部X光听写上错误减少了58%（5.2%对12.5%词错误率），在包含不同专业和说话者的内部医疗听写基准上错误减少了82%（5.2%对28.2%词错误率）。

全球应用案例展示实际价值

谷歌看到世界各地的健康科技初创公司和开发者利用MedGemma加速其研究和产品开发。例如，Qmed Asia将MedGemma适配到askCPG中，这是马来西亚150多个临床实践指南的对话界面。根据马来西亚卫生部，该对话界面使导航马来西亚临床实践指南在日常临床决策支持中更加实用。

此外，台湾健保署将MedGemma应用于评估肺癌手术的术前评估。通过使用MedGemma从30000多份病理报告和非结构化数据中提取关键数据，他们进行统计分析以评估患者的术前医疗状况。

模型获取和未来展望

用户可以通过Hugging Face集合或谷歌云上的Vertex AI访问所有MedGemma变体。MedASR目前在Hugging Face和Vertex AI上可用。为展示下一代医疗AI应用的想法，可以查看MedGemma影响力挑战赛。

需要注意的是，HAI-DEF模型（包括MedGemma和MedASR）旨在作为起点使用，不适合在没有适当验证、适配和/或开发者针对特定用例进行有意义修改的情况下直接使用。这些模型生成的输出不应直接用于临床诊断、患者管理决策、治疗建议或任何其他直接临床实践应用。

Q&A

Q1：MedGemma 1.5相比前代版本有哪些主要改进？

A：MedGemma 1.5主要在三个方面有重大改进：首先是新增高维医疗影像支持，包括CT和MRI的三维体积表示以及全切片组织病理学影像；其次是医疗文本处理能力显著提升，在MedQA上提高5%，在电子健康记录问答上提高22%；最后是增强了对多种医疗影像模态的解读能力，为开发者提供更全面的医疗AI工具。

Q2：MedASR医疗语音识别模型的准确率如何？

A：MedASR在医疗语音识别方面表现出色。与通用模型Whisper large-v3相比，MedASR在胸部X光听写上错误率降低58%（从12.5%降至5.2%），在包含不同医疗专业和说话者的综合测试中错误率降低82%（从28.2%降至5.2%）。这使其成为专门针对医疗领域优化的高精度语音转文本解决方案。

Q3：如何获取和使用MedGemma和MedASR模型？

A：开发者可以通过两个主要渠道获取这些模型：一是通过Hugging Face平台下载开源版本，二是通过谷歌云的Vertex AI服务进行云端部署和扩展。所有HAI-DEF模型（包括MedGemma和MedASR）均免费提供研究和商业使用。谷歌还提供了详细的教程笔记本帮助开发者快速上手，同时可参与MedGemma影响力挑战赛探索创新应用。

来源：Google

0赞

好文章，需要你的鼓励

谷歌发布MedGemma 1.5医疗影像解读模型和MedASR语音转文本系统

来源：Google

2026

01/14

08:10

分享

点赞

WAIC2026 现场直击：开普勒顶流人气王，麒麟系列火爆出圈

面壁智能将密度定律带入具身智能

龙磁科技拟投3.58亿元扩建越南永磁铁氧体基地

首创一层Scale-up网络256卡全互联，摩尔线程MTT C256超节点为万卡及十万卡级集群夯实底座

从高血压诊疗入手，北京安贞医院让医疗大模型走出聊天框

西门子肖松：以场景为牵引，推动工业AI从单点实效迈向生产力跃迁

打造Token极致性价比 新华三震撼亮相2026世界人工智能大会

机器人管家系统上线！傅利叶携多款康养陪伴新品方案亮相WAIC 2026

赛那德“ 自主作业机器人天团” 登陆 WAIC：iLoabot-X+模型双升级，秀出具身场景落地硬实力

西门子Eigen工程智能体中国首发首展，荣获2026 WAIC SAIL之星奖

NVIDIA Cosmos 推动物理 AI 前沿发展

PPIO亮相WAIC 2026：发布智能模型网关，打造面向Agent时代的智能Token工厂

物理AI成为下一个前沿：已经融入我们的日常生活

Red Hat为英伟达Vera Rubin AI平台定制RHEL操作系统

谷歌发布用于智能体购物的新协议标准

Videojet如何让技术与战略深度融合推动业务增长

Anthropic推出Claude医疗版AI，可安全接入健康记录

Anthropic发布Cowork工具，让Claude无需编程技能

Meta成立新部门专攻AI基础设施建设

Anthropic推出Cowork通用办公智能体工具

ChatGPT新手入门指南：如何开始使用AI聊天机器人

2025年超百家科技独角兽诞生企业名单

如果您非常迫切的想了解IT领域最新产品与技术信息，那么订阅至顶网技术邮件将是您的最佳途径之一

三一集团：数字化是必选项，AI是生存项

因湃电池 × 达索系统：如何共创出一套电池产业最佳实践

AI走进真实世界之后：安全、健康与产业的新命题

CES 2026

关注官方公众号

关注官方微博

关注官方喜马拉雅

友情链接

业界热点:

打造Token极致性价比新华三震撼亮相2026世界人工智能大会