《自然医学》杂志发表的一项新研究对OpenAI推出的健康服务ChatGPT Health的安全性提出了担忧。研究发现,在许多实际需要紧急护理的情况下,该服务未能给出正确的就医建议。
研究人员使用60个真实的患者场景对ChatGPT Health进行了测试,这些场景涵盖了从轻微不适到急性医疗状况的各种情况。三名医生事先评估了所需的护理级别,然后将结果与AI工具的建议进行比较。结果显示,在超过半数应该立即送医的病例中,系统反而建议患者留在家中或预约常规门诊。
研究表明,该服务在处理明确的紧急情况时表现较好,例如中风或严重过敏反应,但在处理更复杂或模糊的症状时则遇到困难。研究人员还指出,系统在处理自杀风险方面存在缺陷,警告功能有时会因场景中添加的额外信息不同而消失。
对此,OpenAI回应称,该研究并未反映服务在实际应用中的典型使用情况,并表示模型正在持续更新中。
Q&A
Q1:ChatGPT Health在医疗建议方面存在什么问题?
A:研究发现ChatGPT Health在许多实际需要紧急护理的情况下未能给出正确建议。在超过半数应该立即送医的病例中,系统反而建议患者留在家中或预约常规门诊。该服务在处理明确紧急情况时表现较好,但处理复杂或模糊症状时存在困难。
Q2:研究人员如何测试ChatGPT Health的准确性?
A:研究人员使用60个真实患者场景进行测试,涵盖从轻微不适到急性医疗状况的各种情况。三名医生事先评估了所需的护理级别,然后将医生的评估结果与AI工具给出的建议进行对比分析,从而发现了系统在紧急情况判断上的不足。
Q3:OpenAI对ChatGPT Health安全性研究有何回应?
A:OpenAI回应称,该研究并未反映服务在实际应用中的典型使用情况,并强调模型正在持续更新中。这表明OpenAI认为实验室测试场景与真实使用环境存在差异,同时也在不断改进系统性能。
好文章,需要你的鼓励
FORTIS是专门测量AI代理"越权行为"的基准测试,研究发现十款顶尖模型普遍选择远超任务需要的高权限技能,端到端成功率最高仅14.3%。
谷歌在Android Show发布会上宣布,将Gemini更深度整合至Android系统,推出名为"Gemini Intelligence"的升级功能。该功能可跨应用处理日常任务,包括自动填写表单、安排日程、生成购物清单及自定义小组件等,无需用户频繁切换应用。此外,Gboard新增"Rambler"功能,可自动过滤语音输入中的口误和填充词。Gemini Intelligence将率先登陆三星Galaxy和谷歌Pixel手机,并支持Android Auto、Wear OS及智能眼镜。
荷兰Nebius团队提出SlimSpec,通过低秩分解压缩草稿模型LM-Head的内部表示而非裁剪词汇,在保留完整词汇表的同时将LM-Head计算时间压缩至原来的五分之一,端到端推理速度超越现有方法最高达9%。