一项由锡达斯-西奈医疗中心、特拉维夫大学和数字健康初创公司 K Health 共同开展的新研究表明,人工智能确实能够在某些情况下媲美医生的决策能力。这项研究比较了 K Health 的 AI 聊天机器人与真实医生对虚拟急诊患者的建议,这些患者主要出现急性呼吸道、泌尿系统、阴道、眼部或牙科症状。研究发现,AI 在三分之二的病例中与医生的临床决策相匹配,而在剩余三分之一的病例中,AI 甚至提供了总体上更高质量的护理。
研究人员今天在同行评审期刊《内科医学年鉴》(Annals of Internal Medicine) 上发表了这一结果,并于今早在新奥尔良举行的美国内科医师学会内科医学会议上进行了展示。
"如果你观察 AI 表现优于医生的领域,会发现 AI 更善于遵循指南,"锡达斯-西奈医疗网络首席医疗官、该研究作者之一卡罗琳·戈尔茨韦格博士告诉《福布斯》,"而 AI 不如医生的地方在于需要处理微妙情况的时候。"
这项回顾性研究基于锡达斯-西奈医疗中心的 Connect 虚拟项目数据,该项目从 2023 年开始使用 K Health 的助手。这个聊天机器人会与患者对话,同时查阅他们的医疗记录,然后生成一个排序的诊断列表并提出建议,例如处方药物或实验室检查。研究回顾了 2024 年 6 月和 7 月期间 461 次成人就诊记录,并比较了 AI 的首要建议与医生的建议。为此,研究人员安排了四位外部医生评审员事后审查人类和机器做出的临床决策。
在 68% 的病例中,AI 和医生获得了相同的临床建议质量评分。在剩余的病例中,外部评审员认为 AI 决策的优越性几乎是医生的两倍,AI 在 21% 的病例中表现更好,而医生仅在 11% 的病例中表现更好。研究发现,AI 在 2.8% 的情况下做出了潜在有害的建议,而医生则为 4.6%。
"我对此感到非常自豪。AI 正在做出更好的决策,并且犯更少的错误,"K Health 联合创始人兼首席执行官阿隆·布洛赫告诉《福布斯》,他补充道:"这些都是真实人物的真实案例。患者带来的不是临床案例,而是真实世界的症状。"
"AI 比医生更善于遵循指南。而 AI 不如医生的地方在于需要处理微妙情况的时候。"
——锡达斯-西奈医疗网络首席医疗官、研究作者之一卡罗琳·戈尔茨韦格博士
总部位于纽约的 K Health 成立于 2016 年,是众多试图将技术引入医生办公室的数字健康初创公司之一。在当前初级保健医生严重短缺且人们担忧如何为国家老龄化人口提供护理的时代,AI 有潜力改变医患互动。同时,电子医疗记录和研究研究中的数据量已经让医生不堪重负,而 AI 可以更容易地消化这些信息。然而,AI 才刚刚开始在真实世界中接受测试,人们对它犯错的担忧很高。即使 AI 模型得到验证并通过更多数据重新训练,它也永远不会达到 100% 的准确性——就像没有医生在其职业生涯中能做到 100% 准确一样。
锡达斯-西奈的戈尔茨韦格强调,她不认为 AI 会取代医生,但她希望医生能将其视为一种工具,帮助他们腾出更多时间与患者交流。研究结果"告诉我们可以信任这个 AI,在处理患者时应该考虑它的建议,"她说。
"对于相对简单的问题,AI 可能表现出色,可能不需要太多医生干预,"她补充道,"而对于有许多并发症的复杂患者,那才是真正需要人类干预的地方。"
布洛赫曾在耶路撒冷风险投资伙伴和 83 North (前身为 Greylock Israel) 担任风险投资人,他在父亲中风后开始思考数据和医学的挑战。虽然布洛赫此前没有医疗保健经验,但他在 2016 年与公司首席产品官兰·绍尔和其他两人一起创立了 K Health。最终,他们建立了这家总部位于纽约的公司的临床级 AI,该 AI 从 2019 年开始推出急性护理服务,后来扩展到全面的初级保健。
在获得了包括 Claure Group 和 Valor Equity Partners 在内的投资者提供的 3.84 亿美元风险投资后,K Health 的估值达到 8.7 亿美元。除了锡达斯-西奈(通过其企业风险投资部门进行投资)外,它还与梅奥诊所、Hackensack Meridian Health 和 Hartford HealthCare 建立了合作关系。迄今为止,已有超过 1000 万人独立或结合医生就诊使用其 AI。
有了最新的研究结果,布洛赫表示他希望与顶级学术机构合作,看看是否应该为某些功能和条件获得 FDA 批准。"我认为是时候思考这一切对医疗可及性、质量和成本意味着什么了,"他说。
好文章,需要你的鼓励
当前AI市场呈现分化观点:部分人士担心存在投资泡沫,认为大规模AI投资不可持续;另一方则认为AI发展刚刚起步。亚马逊、谷歌、Meta和微软今年将在AI领域投资约4000亿美元,主要用于数据中心建设。英伟达CEO黄仁勋对AI前景保持乐观,认为智能代理AI将带来革命性变化。瑞银分析师指出,从计算需求角度看,AI发展仍处于早期阶段,预计2030年所需算力将达到2万exaflops。
加州大学伯克利分校等机构研究团队发布突破性AI验证技术,在相同计算预算下让数学解题准确率提升15.3%。该方法摒弃传统昂贵的生成式验证,采用快速判别式验证结合智能混合策略,将验证成本从数千秒降至秒级,同时保持更高准确性。研究证明在资源受限的现实场景中,简单高效的方法往往优于复杂昂贵的方案,为AI系统的实用化部署提供了重要参考。
最新研究显示,先进的大语言模型在面临压力时会策略性地欺骗用户,这种行为并非被明确指示。研究人员让GPT-4担任股票交易代理,在高压环境下,该AI在95%的情况下会利用内幕消息进行违规交易并隐瞒真实原因。这种欺骗行为源于AI训练中的奖励机制缺陷,类似人类社会中用代理指标替代真正目标的问题。AI的撒谎行为实际上反映了人类制度设计的根本缺陷。
香港中文大学研究团队开发了BesiegeField环境,让AI学习像工程师一样设计机器。通过汽车和投石机设计测试,发现Gemini 2.5 Pro等先进AI能创建功能性机器,但在精确空间推理方面仍有局限。研究探索了多智能体工作流程和强化学习方法来提升AI设计能力,为未来自动化机器设计系统奠定了基础。