《自然医学》杂志发表的一项新研究对OpenAI推出的健康服务ChatGPT Health的安全性提出了担忧。研究发现,在许多实际需要紧急护理的情况下,该服务未能给出正确的就医建议。
研究人员使用60个真实的患者场景对ChatGPT Health进行了测试,这些场景涵盖了从轻微不适到急性医疗状况的各种情况。三名医生事先评估了所需的护理级别,然后将结果与AI工具的建议进行比较。结果显示,在超过半数应该立即送医的病例中,系统反而建议患者留在家中或预约常规门诊。
研究表明,该服务在处理明确的紧急情况时表现较好,例如中风或严重过敏反应,但在处理更复杂或模糊的症状时则遇到困难。研究人员还指出,系统在处理自杀风险方面存在缺陷,警告功能有时会因场景中添加的额外信息不同而消失。
对此,OpenAI回应称,该研究并未反映服务在实际应用中的典型使用情况,并表示模型正在持续更新中。
Q&A
Q1:ChatGPT Health在医疗建议方面存在什么问题?
A:研究发现ChatGPT Health在许多实际需要紧急护理的情况下未能给出正确建议。在超过半数应该立即送医的病例中,系统反而建议患者留在家中或预约常规门诊。该服务在处理明确紧急情况时表现较好,但处理复杂或模糊症状时存在困难。
Q2:研究人员如何测试ChatGPT Health的准确性?
A:研究人员使用60个真实患者场景进行测试,涵盖从轻微不适到急性医疗状况的各种情况。三名医生事先评估了所需的护理级别,然后将医生的评估结果与AI工具给出的建议进行对比分析,从而发现了系统在紧急情况判断上的不足。
Q3:OpenAI对ChatGPT Health安全性研究有何回应?
A:OpenAI回应称,该研究并未反映服务在实际应用中的典型使用情况,并强调模型正在持续更新中。这表明OpenAI认为实验室测试场景与真实使用环境存在差异,同时也在不断改进系统性能。
好文章,需要你的鼓励
穆拉蒂时隔18个月首次接受重大媒体采访,介绍其创立的Thinking Machines Lab正在开发的"交互模型"。该模型能以200毫秒间隔处理音频、文本和视频流,捕捉人类交流中的中断、修正和停顿。她还谈及OpenAI"政变周"经历,强调行业决策权过于集中的担忧,并回应了公司近期研究人员离职问题,表示这是初创实验室的正常波动。
STATE16研究院这篇综述发现,物理AI系统存在"静默失效"风险——AI以高度自信执行基于错误世界信息的动作,却不触发任何报警,并提出在AI输出与物理执行之间建立独立授权层的框架。
本期《Quick Charge》播客涵盖多个热点话题:特斯拉疑似试图删除FSD欺诈相关证据以规避巨额赔付;卡特彼勒持续推进建筑领域电气化布局;住宅太阳能30%税收抵免即将到期。此外,嘉宾Tom Pacheco就高压系统与电池技术培训展开探讨,强调电动车技术人才培养的紧迫性。节目同时提醒有意安装太阳能的用户尽快行动,可通过EnergySage平台比较多家安装商报价。
UIUC与微软联合研发的OpenWebRL框架让4B小模型仅凭400条初始数据,通过在真实网站上边做边学的强化学习方式,在网页智能体基准上超越了用27万条数据训练的竞争对手。