一项由锡达斯-西奈医疗中心、特拉维夫大学和数字健康初创公司 K Health 共同开展的新研究表明,人工智能确实能够在某些情况下媲美医生的决策能力。这项研究比较了 K Health 的 AI 聊天机器人与真实医生对虚拟急诊患者的建议,这些患者主要出现急性呼吸道、泌尿系统、阴道、眼部或牙科症状。研究发现,AI 在三分之二的病例中与医生的临床决策相匹配,而在剩余三分之一的病例中,AI 甚至提供了总体上更高质量的护理。
研究人员今天在同行评审期刊《内科医学年鉴》(Annals of Internal Medicine) 上发表了这一结果,并于今早在新奥尔良举行的美国内科医师学会内科医学会议上进行了展示。
"如果你观察 AI 表现优于医生的领域,会发现 AI 更善于遵循指南,"锡达斯-西奈医疗网络首席医疗官、该研究作者之一卡罗琳·戈尔茨韦格博士告诉《福布斯》,"而 AI 不如医生的地方在于需要处理微妙情况的时候。"
这项回顾性研究基于锡达斯-西奈医疗中心的 Connect 虚拟项目数据,该项目从 2023 年开始使用 K Health 的助手。这个聊天机器人会与患者对话,同时查阅他们的医疗记录,然后生成一个排序的诊断列表并提出建议,例如处方药物或实验室检查。研究回顾了 2024 年 6 月和 7 月期间 461 次成人就诊记录,并比较了 AI 的首要建议与医生的建议。为此,研究人员安排了四位外部医生评审员事后审查人类和机器做出的临床决策。
在 68% 的病例中,AI 和医生获得了相同的临床建议质量评分。在剩余的病例中,外部评审员认为 AI 决策的优越性几乎是医生的两倍,AI 在 21% 的病例中表现更好,而医生仅在 11% 的病例中表现更好。研究发现,AI 在 2.8% 的情况下做出了潜在有害的建议,而医生则为 4.6%。
"我对此感到非常自豪。AI 正在做出更好的决策,并且犯更少的错误,"K Health 联合创始人兼首席执行官阿隆·布洛赫告诉《福布斯》,他补充道:"这些都是真实人物的真实案例。患者带来的不是临床案例,而是真实世界的症状。"
"AI 比医生更善于遵循指南。而 AI 不如医生的地方在于需要处理微妙情况的时候。"
——锡达斯-西奈医疗网络首席医疗官、研究作者之一卡罗琳·戈尔茨韦格博士
总部位于纽约的 K Health 成立于 2016 年,是众多试图将技术引入医生办公室的数字健康初创公司之一。在当前初级保健医生严重短缺且人们担忧如何为国家老龄化人口提供护理的时代,AI 有潜力改变医患互动。同时,电子医疗记录和研究研究中的数据量已经让医生不堪重负,而 AI 可以更容易地消化这些信息。然而,AI 才刚刚开始在真实世界中接受测试,人们对它犯错的担忧很高。即使 AI 模型得到验证并通过更多数据重新训练,它也永远不会达到 100% 的准确性——就像没有医生在其职业生涯中能做到 100% 准确一样。
锡达斯-西奈的戈尔茨韦格强调,她不认为 AI 会取代医生,但她希望医生能将其视为一种工具,帮助他们腾出更多时间与患者交流。研究结果"告诉我们可以信任这个 AI,在处理患者时应该考虑它的建议,"她说。
"对于相对简单的问题,AI 可能表现出色,可能不需要太多医生干预,"她补充道,"而对于有许多并发症的复杂患者,那才是真正需要人类干预的地方。"
布洛赫曾在耶路撒冷风险投资伙伴和 83 North (前身为 Greylock Israel) 担任风险投资人,他在父亲中风后开始思考数据和医学的挑战。虽然布洛赫此前没有医疗保健经验,但他在 2016 年与公司首席产品官兰·绍尔和其他两人一起创立了 K Health。最终,他们建立了这家总部位于纽约的公司的临床级 AI,该 AI 从 2019 年开始推出急性护理服务,后来扩展到全面的初级保健。
在获得了包括 Claure Group 和 Valor Equity Partners 在内的投资者提供的 3.84 亿美元风险投资后,K Health 的估值达到 8.7 亿美元。除了锡达斯-西奈(通过其企业风险投资部门进行投资)外,它还与梅奥诊所、Hackensack Meridian Health 和 Hartford HealthCare 建立了合作关系。迄今为止,已有超过 1000 万人独立或结合医生就诊使用其 AI。
有了最新的研究结果,布洛赫表示他希望与顶级学术机构合作,看看是否应该为某些功能和条件获得 FDA 批准。"我认为是时候思考这一切对医疗可及性、质量和成本意味着什么了,"他说。
好文章,需要你的鼓励
OpenAI首席执行官Sam Altman表示,鉴于投资者的AI炒作和大量资本支出,我们目前正处于AI泡沫中。他承认投资者对AI过度兴奋,但仍认为AI是长期以来最重要的技术。ChatGPT目前拥有7亿周活跃用户,是全球第五大网站。由于服务器容量不足,OpenAI无法发布已开发的更好模型,计划在不久的将来投资万亿美元建设数据中心。
阿里巴巴团队提出FantasyTalking2,通过创新的多专家协作框架TLPO解决音频驱动人像动画中动作自然度、唇同步和视觉质量的优化冲突问题。该方法构建智能评委Talking-Critic和41万样本数据集,训练三个专业模块分别优化不同维度,再通过时间步-层级自适应融合实现协调。实验显示全面超越现有技术,用户评价提升超12%。
英伟达推出新的小型语言模型Nemotron-Nano-9B-v2,拥有90亿参数,在同类基准测试中表现最佳。该模型采用Mamba-Transformer混合架构,支持多语言处理和代码生成,可在单个A10 GPU上运行。独特的可切换推理功能允许用户通过控制令牌开启或关闭AI推理过程,并可管理推理预算以平衡准确性和延迟。模型基于合成数据集训练,采用企业友好的开源许可协议,支持商业化使用。
UC Berkeley团队提出XQUANT技术,通过存储输入激活X而非传统KV缓存来突破AI推理的内存瓶颈。该方法能将内存使用量减少至1/7.7,升级版XQUANT-CL更可实现12.5倍节省,同时几乎不影响模型性能。研究针对现代AI模型特点进行优化,为在有限硬件资源下运行更强大AI模型提供了新思路。