《自然医学》杂志发表的一项新研究对OpenAI推出的健康服务ChatGPT Health的安全性提出了担忧。研究发现,在许多实际需要紧急护理的情况下,该服务未能给出正确的就医建议。
研究人员使用60个真实的患者场景对ChatGPT Health进行了测试,这些场景涵盖了从轻微不适到急性医疗状况的各种情况。三名医生事先评估了所需的护理级别,然后将结果与AI工具的建议进行比较。结果显示,在超过半数应该立即送医的病例中,系统反而建议患者留在家中或预约常规门诊。
研究表明,该服务在处理明确的紧急情况时表现较好,例如中风或严重过敏反应,但在处理更复杂或模糊的症状时则遇到困难。研究人员还指出,系统在处理自杀风险方面存在缺陷,警告功能有时会因场景中添加的额外信息不同而消失。
对此,OpenAI回应称,该研究并未反映服务在实际应用中的典型使用情况,并表示模型正在持续更新中。
Q&A
Q1:ChatGPT Health在医疗建议方面存在什么问题?
A:研究发现ChatGPT Health在许多实际需要紧急护理的情况下未能给出正确建议。在超过半数应该立即送医的病例中,系统反而建议患者留在家中或预约常规门诊。该服务在处理明确紧急情况时表现较好,但处理复杂或模糊症状时存在困难。
Q2:研究人员如何测试ChatGPT Health的准确性?
A:研究人员使用60个真实患者场景进行测试,涵盖从轻微不适到急性医疗状况的各种情况。三名医生事先评估了所需的护理级别,然后将医生的评估结果与AI工具给出的建议进行对比分析,从而发现了系统在紧急情况判断上的不足。
Q3:OpenAI对ChatGPT Health安全性研究有何回应?
A:OpenAI回应称,该研究并未反映服务在实际应用中的典型使用情况,并强调模型正在持续更新中。这表明OpenAI认为实验室测试场景与真实使用环境存在差异,同时也在不断改进系统性能。
好文章,需要你的鼓励
今天讲的出海案例是依米康,这家数据中心温控与液冷设备厂商正在把泰国纳入海外交付体系,并用生产线、总装车间和焓差实验室承接算力设施订单。
BioMatrix是首个将分子序列、分子三维结构、蛋白质序列、蛋白质三维结构和自然语言统一在单一语言模型中的生物基础模型,在80项任务中77项达到最优或第二优。
Salesforce正式推出Help Agent,这是基于Agentforce平台的预封装AI客服智能体,可在数分钟内连接企业知识库、操作功能及网页、短信、语音等沟通渠道。该产品同步推出按解决率计费模式,每次成功自主解决客户问题收费2美元,无需按token或操作次数计费。Help Agent支持低代码构建,内置测试功能,并配备全新客户服务门户。该产品预计于2026年7月正式上线。
浙江大学提出SKILLHARNESS框架,通过为AI电脑助手的每项技能附加安全边界,从成功、失败和风险三类经历中学习,使AI在动态危险环境中安全高效地完成任务。