一项由锡达斯-西奈医疗中心、特拉维夫大学和数字健康初创公司 K Health 共同开展的新研究表明,人工智能确实能够在某些情况下媲美医生的决策能力。这项研究比较了 K Health 的 AI 聊天机器人与真实医生对虚拟急诊患者的建议,这些患者主要出现急性呼吸道、泌尿系统、阴道、眼部或牙科症状。研究发现,AI 在三分之二的病例中与医生的临床决策相匹配,而在剩余三分之一的病例中,AI 甚至提供了总体上更高质量的护理。
研究人员今天在同行评审期刊《内科医学年鉴》(Annals of Internal Medicine) 上发表了这一结果,并于今早在新奥尔良举行的美国内科医师学会内科医学会议上进行了展示。
"如果你观察 AI 表现优于医生的领域,会发现 AI 更善于遵循指南,"锡达斯-西奈医疗网络首席医疗官、该研究作者之一卡罗琳·戈尔茨韦格博士告诉《福布斯》,"而 AI 不如医生的地方在于需要处理微妙情况的时候。"
这项回顾性研究基于锡达斯-西奈医疗中心的 Connect 虚拟项目数据,该项目从 2023 年开始使用 K Health 的助手。这个聊天机器人会与患者对话,同时查阅他们的医疗记录,然后生成一个排序的诊断列表并提出建议,例如处方药物或实验室检查。研究回顾了 2024 年 6 月和 7 月期间 461 次成人就诊记录,并比较了 AI 的首要建议与医生的建议。为此,研究人员安排了四位外部医生评审员事后审查人类和机器做出的临床决策。
在 68% 的病例中,AI 和医生获得了相同的临床建议质量评分。在剩余的病例中,外部评审员认为 AI 决策的优越性几乎是医生的两倍,AI 在 21% 的病例中表现更好,而医生仅在 11% 的病例中表现更好。研究发现,AI 在 2.8% 的情况下做出了潜在有害的建议,而医生则为 4.6%。
"我对此感到非常自豪。AI 正在做出更好的决策,并且犯更少的错误,"K Health 联合创始人兼首席执行官阿隆·布洛赫告诉《福布斯》,他补充道:"这些都是真实人物的真实案例。患者带来的不是临床案例,而是真实世界的症状。"
"AI 比医生更善于遵循指南。而 AI 不如医生的地方在于需要处理微妙情况的时候。"
——锡达斯-西奈医疗网络首席医疗官、研究作者之一卡罗琳·戈尔茨韦格博士
总部位于纽约的 K Health 成立于 2016 年,是众多试图将技术引入医生办公室的数字健康初创公司之一。在当前初级保健医生严重短缺且人们担忧如何为国家老龄化人口提供护理的时代,AI 有潜力改变医患互动。同时,电子医疗记录和研究研究中的数据量已经让医生不堪重负,而 AI 可以更容易地消化这些信息。然而,AI 才刚刚开始在真实世界中接受测试,人们对它犯错的担忧很高。即使 AI 模型得到验证并通过更多数据重新训练,它也永远不会达到 100% 的准确性——就像没有医生在其职业生涯中能做到 100% 准确一样。
锡达斯-西奈的戈尔茨韦格强调,她不认为 AI 会取代医生,但她希望医生能将其视为一种工具,帮助他们腾出更多时间与患者交流。研究结果"告诉我们可以信任这个 AI,在处理患者时应该考虑它的建议,"她说。
"对于相对简单的问题,AI 可能表现出色,可能不需要太多医生干预,"她补充道,"而对于有许多并发症的复杂患者,那才是真正需要人类干预的地方。"
布洛赫曾在耶路撒冷风险投资伙伴和 83 North (前身为 Greylock Israel) 担任风险投资人,他在父亲中风后开始思考数据和医学的挑战。虽然布洛赫此前没有医疗保健经验,但他在 2016 年与公司首席产品官兰·绍尔和其他两人一起创立了 K Health。最终,他们建立了这家总部位于纽约的公司的临床级 AI,该 AI 从 2019 年开始推出急性护理服务,后来扩展到全面的初级保健。
在获得了包括 Claure Group 和 Valor Equity Partners 在内的投资者提供的 3.84 亿美元风险投资后,K Health 的估值达到 8.7 亿美元。除了锡达斯-西奈(通过其企业风险投资部门进行投资)外,它还与梅奥诊所、Hackensack Meridian Health 和 Hartford HealthCare 建立了合作关系。迄今为止,已有超过 1000 万人独立或结合医生就诊使用其 AI。
有了最新的研究结果,布洛赫表示他希望与顶级学术机构合作,看看是否应该为某些功能和条件获得 FDA 批准。"我认为是时候思考这一切对医疗可及性、质量和成本意味着什么了,"他说。
好文章,需要你的鼓励
苏州大学研究团队提出"语境降噪训练"新方法,通过"综合梯度分数"识别长文本中的关键信息,在训练时强化重要内容、抑制干扰噪音。该技术让80亿参数的开源模型在长文本任务上达到GPT-4o水平,训练效率比传统方法高出40多倍。研究解决了AI处理长文档时容易被无关信息干扰的核心问题,为文档分析、法律研究等应用提供重要突破。
在Cloudera的“价值观”中,企业智能化的根基可以被概括为两个字:“源”与“治”——让数据有源,智能可治。
清华大学团队首次揭示了困扰AI训练领域超过两年的"幽灵故障"根本原因:Flash Attention在BF16精度下训练时会因数字舍入偏差与低秩矩阵结构的交互作用导致训练崩溃。研究团队通过深入分析发现问题源于注意力权重为1时的系统性舍入误差累积,并提出了动态最大值调整的解决方案,成功稳定了训练过程。这项研究不仅解决了实际工程问题,更为分析类似数值稳定性挑战提供了重要方法论。