OpenAI的o1模型,作为首个采用强化学习策略内化思维链(chain-of-thought)技术的LLM,已经在各种通用语言任务上展现出超凡的能力。
然而,它在医学等专业领域的性能仍然是一个未知数。为了探索这一问题,研究人员进行了一项初步研究,以评估o1在不同医学场景下的表现。
研究聚焦于o1模型在医学领域的三个关键方面:理解力、推理能力和多语言能力。为了确保评估的全面性,研究者们收集了35个现有的医学数据集,并开发了2个基于《新英格兰医学杂志》和《柳叶刀》的专业医学测验的新问答数据集,这些数据集被用于6个不同的任务中。
在理解力方面,评估包括概念识别和文本摘要任务。推理能力的测试更为复杂,它包括知识问答、临床决策支持和代理任务。多语言能力的评估则检查模型处理非英语医学问题的能力。这包括使用多种语言的问答任务,以及在中文医疗代理任务中模拟医疗互动。
为了衡量模型在这些任务上的表现,研究者们采用了多种评估指标。准确率直接衡量模型生成的答案与真实答案匹配的程度。F1分数则用于评估模型在需要选择多个正确答案的任务上的性能。BLEU和ROUGE指标用于评估生成文本与参考文本之间的相似度。AlignScore和Mauve指标则用于评估模型生成文本的事实一致性和自然度。
在实施评估时,研究者们探索了三种提示策略:直接提示、思维链提示和少量示例提示。他们选择了几种不同的模型进行比较,包括GPT-3.5、GPT-4以及开源模型MEDITRON-70B和Llama3-8B。实验涉及到多个医学任务,如问答、文本摘要、概念识别等,并使用了相应的数据集来评估模型在每个任务上的表现。
实验结果显示,o1模型在多数医学任务上都展现出了优越的性能。
在理解医学概念方面,o1在多个概念识别数据集上的表现超过了其他模型,在BC4Chem数据集上,o1的平均性能提升达到了24.5%。
在推理能力方面,o1在新构建的NEJMQA和LancetQA问答任务上取得了显著的准确率提升,o1的平均准确率分别比GPT-4高出8.9%和27.1%。
此外,o1在多语言医学问答任务中也展现了强大的能力,但在复杂的中文医疗代理任务中,其性能却有所下降。
研究人员也发现了一些局限性。o1在多个医学任务上表现出色,但其较长的解码时间可能导致在需要快速响应的临床环境中的实用性受限。此外,模型在处理复杂的中文医疗代理任务时性能有所下降,在处理复杂的多语言医学案例时仍面临挑战。
研究人员还发现,传统的评估指标如BLEU和ROUGE,无法充分捕捉到模型在医学领域的表现,需要开发更加精确的评估工具,以便更好地衡量和理解模型在复杂医学任务中的表现。
研究人员认为,尽管o1在某些方面仍有不足,但其在多个医学任务上展现出的能力表明,我们离实现AI医生的目标已经越来越近。然而,为了实现这一目标,还需要在模型性能、评估指标和用户指导策略等方面进行更多的研究和改进。
好文章,需要你的鼓励
这项研究提出了ORV(占用中心机器人视频生成)框架,利用4D语义占用作为中间表示来生成高质量的机器人操作视频。与传统方法相比,ORV能提供更精确的语义和几何指导,实现更高的时间一致性和控制精度。该框架还支持多视角视频生成(ORV-MV)和模拟到真实的转换(ORV-S2R),有效弥合了虚拟与现实之间的差距。实验结果表明,ORV在多个数据集上的表现始终优于现有方法,为机器人学习和模拟提供了强大工具。
这项研究由Writer公司团队开发的"反思、重试、奖励"机制,通过强化学习教导大型语言模型生成更有效的自我反思内容。当模型回答错误时,它会生成反思并二次尝试,若成功则奖励反思过程。实验表明,该方法在函数调用和数学方程解题上带来显著提升,最高分别改善18.1%和34.7%。令人惊讶的是,经训练的小模型甚至超越了同家族10倍大的模型,且几乎不存在灾难性遗忘问题。这种自我改进技术为资源受限环境下的AI应用开辟了新方向。
FuseLIP是一项突破性研究,提出了通过早期融合离散标记实现多模态嵌入的新方法。与传统CLIP模型使用独立编码器不同,FuseLIP采用单一编码器同时处理图像和文本标记,实现了更自然的模态交互。研究证明,这种早期融合方法在多种多模态任务上表现优异,特别是在需要理解图像结构而非仅语义内容的任务上。研究还开发了创新的数据集和评估任务,为多模态嵌入研究提供了宝贵资源。
ByteDance与浙江大学合作开发的MERIT是首个专为多语言多条件语义检索设计的基准数据集,包含320,000条跨5种语言的查询和135,000个产品。研究发现现有模型在处理多条件查询时过度关注全局语义而忽略特定条件元素,为此提出CORAL框架,通过嵌入重建和对比学习相结合的方式,使检索性能提升45.9%。这项研究不仅识别了现有方法的关键局限性,还为多条件交错语义检索领域的未来研究奠定了基础。