大语言模型能力的持续提升,推动了业界对严格、可扩展评估框架的迫切需求。满足这一需求的主要瓶颈之一,在于人工评分模型输出的高昂成本:专业人工评分虽是质量评估的黄金标准,但耗时费力、代价高昂。自动化评估方法——涵盖传统自然语言处理指标、简单字符串匹配或正则表达式技术——提供了低成本的替代方案,但往往难以捕捉语义细微差别,且在面对格式或措辞变化时容易失效。
在常见的成对比较场景中,利用大语言模型充当"裁判"来选出两个回答中更优者的方式已被广泛研究。然而,成对评分在某些开放性场景中的实用价值有限——比如无法同时获得两个回答,或者需要更精细的评分维度来区分回答质量时。
本报告聚焦于逐点评分方法,用于更灵活的、无需参考答案的评估任务,并将这类逐点评分的大语言模型评分器称为"自动评分器"。报告对五种方法进行了实证比较,分别是:单一评分标准法、元提示法、条目列表法、标准分解法,以及基于声明式自改进 Python(DSPy)的提示优化法。上述方法在四个专家评分基准数据集和五个大语言模型上进行了测试。
研究结果揭示了一个重要规律:在多数评估场景中,结构更简单的方法往往表现不逊于甚至优于复杂方案。单一评分标准法凭借其简洁性,在多个基准测试中展现出稳定且具有竞争力的表现。相比之下,复杂的提示工程策略虽然在特定任务上有所提升,但并未带来一致性的显著增益,且在不同模型和任务类型之间的表现存在较大差异。这一发现对大语言模型评估框架的设计具有重要的实践指导意义:在选择自动评分方案时,应优先考虑简洁性与稳健性,而非盲目追求方法的复杂度。
Q&A
Q1:什么是自动评分器?它在大语言模型评估中有什么作用?
A:自动评分器是指基于大语言模型的逐点评分系统,用于对模型输出进行无需参考答案的灵活评估。在大语言模型能力快速提升的背景下,人工评分成本高且耗时,自动评分器可作为低成本替代方案,对模型回答质量进行自动化打分,从而支撑大规模、可扩展的模型评估流程。
Q2:报告中比较的五种自动评分方法分别是什么?
A:报告比较了以下五种方法:单一评分标准法(使用统一评分规则)、元提示法(通过提示生成提示)、条目列表法(列举具体评分要点)、标准分解法(将评估标准拆解为子维度),以及基于DSPy的提示优化法(利用声明式自改进Python框架自动优化提示)。这五种方法在四个基准数据集和五个大语言模型上均进行了测试。
Q3:自动评分研究的核心发现是什么?对实际应用有何启示?
A:研究的核心发现是,结构更简单的方法(尤其是单一评分标准法)在多数场景下表现不逊于复杂方法,甚至更优。复杂的提示工程策略虽在特定任务上有提升,但整体表现不稳定。这对实际应用的启示是:设计自动评分系统时,应优先考虑方法的简洁性与稳健性,避免为追求复杂度而牺牲一致性。
好文章,需要你的鼓励
机器人智能公司Inbolt将于2026年6月在芝加哥Automate展会上发布两项新能力:Inbolt机器人编程功能和扩展版机器人控制模块。新功能可让工程师直接基于CAD模型构建程序,结合视觉模型实时定位实体零件并自动调整运动路径,彻底消除传统调试中耗时数周的手动示教环节。此次更新还将原生支持安川机器人,使平台覆盖品牌扩展至六个。
马里兰大学提出无需训练奖励模型的数学推理方案,用大模型实时为小模型的分块生成过程打分选优,效果媲美专用过程奖励模型。
本文提供了一套完整的笔记本电脑深度清洁方案。硬件方面,介绍了如何用温和洗涤剂清洁机身、用微纤维布擦拭屏幕、用压缩空气清理键盘及清洁充电线的正确方法。软件方面,建议及时更新操作系统与驱动程序,删除冗余文件与临时下载内容,并通过开启Windows Storage Sense功能实现自动清理,同时将剩余文件整理归类,保持系统整洁高效运行。
上交大等机构联合构建首个个性化MCP工具测评平台,测试超十款顶尖AI在飞书、小红书等真实个人账号场景的实际能力,结果显示无一模型准确率超过50%。