o1 模型在“医学领域”表现如何？研究人员进行了初步研究：AI 医生离我们更近了

OpenAI的o1模型是首个采用强化学习策略内化思维链技术的LLM，在医学领域的表现尚未明确。研究人员通过35个医学数据集和2个新问答数据集，评估了o1在理解力、推理能力和多语言能力方面的表现。实验结果显示o1在多数医学任务上表现优越，但在中文医疗代理任务中性能下降，且解码时间较长。研究指出需要更精确的评估工具和改进用户指导策略，以实现AI医生目标。

OpenAI的o1模型，作为首个采用强化学习策略内化思维链（chain-of-thought）技术的LLM，已经在各种通用语言任务上展现出超凡的能力。

然而，它在医学等专业领域的性能仍然是一个未知数。为了探索这一问题，研究人员进行了一项初步研究，以评估o1在不同医学场景下的表现。

研究聚焦于o1模型在医学领域的三个关键方面：理解力、推理能力和多语言能力。为了确保评估的全面性，研究者们收集了35个现有的医学数据集，并开发了2个基于《新英格兰医学杂志》和《柳叶刀》的专业医学测验的新问答数据集，这些数据集被用于6个不同的任务中。

在理解力方面，评估包括概念识别和文本摘要任务。推理能力的测试更为复杂，它包括知识问答、临床决策支持和代理任务。多语言能力的评估则检查模型处理非英语医学问题的能力。这包括使用多种语言的问答任务，以及在中文医疗代理任务中模拟医疗互动。

o1 模型在“医学领域”表现如何？研究人员进行了初步研究：AI 医生离我们更近了

为了衡量模型在这些任务上的表现，研究者们采用了多种评估指标。准确率直接衡量模型生成的答案与真实答案匹配的程度。F1分数则用于评估模型在需要选择多个正确答案的任务上的性能。BLEU和ROUGE指标用于评估生成文本与参考文本之间的相似度。AlignScore和Mauve指标则用于评估模型生成文本的事实一致性和自然度。

在实施评估时，研究者们探索了三种提示策略：直接提示、思维链提示和少量示例提示。他们选择了几种不同的模型进行比较，包括GPT-3.5、GPT-4以及开源模型MEDITRON-70B和Llama3-8B。实验涉及到多个医学任务，如问答、文本摘要、概念识别等，并使用了相应的数据集来评估模型在每个任务上的表现。

o1 模型在“医学领域”表现如何？研究人员进行了初步研究：AI 医生离我们更近了