大语言模型能力的持续提升,推动了业界对严格、可扩展评估框架的迫切需求。满足这一需求的主要瓶颈之一,在于人工评分模型输出的高昂成本:专业人工评分虽是质量评估的黄金标准,但耗时费力、代价高昂。自动化评估方法——涵盖传统自然语言处理指标、简单字符串匹配或正则表达式技术——提供了低成本的替代方案,但往往难以捕捉语义细微差别,且在面对格式或措辞变化时容易失效。
在常见的成对比较场景中,利用大语言模型充当"裁判"来选出两个回答中更优者的方式已被广泛研究。然而,成对评分在某些开放性场景中的实用价值有限——比如无法同时获得两个回答,或者需要更精细的评分维度来区分回答质量时。
本报告聚焦于逐点评分方法,用于更灵活的、无需参考答案的评估任务,并将这类逐点评分的大语言模型评分器称为"自动评分器"。报告对五种方法进行了实证比较,分别是:单一评分标准法、元提示法、条目列表法、标准分解法,以及基于声明式自改进 Python(DSPy)的提示优化法。上述方法在四个专家评分基准数据集和五个大语言模型上进行了测试。
研究结果揭示了一个重要规律:在多数评估场景中,结构更简单的方法往往表现不逊于甚至优于复杂方案。单一评分标准法凭借其简洁性,在多个基准测试中展现出稳定且具有竞争力的表现。相比之下,复杂的提示工程策略虽然在特定任务上有所提升,但并未带来一致性的显著增益,且在不同模型和任务类型之间的表现存在较大差异。这一发现对大语言模型评估框架的设计具有重要的实践指导意义:在选择自动评分方案时,应优先考虑简洁性与稳健性,而非盲目追求方法的复杂度。
Q&A
Q1:什么是自动评分器?它在大语言模型评估中有什么作用?
A:自动评分器是指基于大语言模型的逐点评分系统,用于对模型输出进行无需参考答案的灵活评估。在大语言模型能力快速提升的背景下,人工评分成本高且耗时,自动评分器可作为低成本替代方案,对模型回答质量进行自动化打分,从而支撑大规模、可扩展的模型评估流程。
Q2:报告中比较的五种自动评分方法分别是什么?
A:报告比较了以下五种方法:单一评分标准法(使用统一评分规则)、元提示法(通过提示生成提示)、条目列表法(列举具体评分要点)、标准分解法(将评估标准拆解为子维度),以及基于DSPy的提示优化法(利用声明式自改进Python框架自动优化提示)。这五种方法在四个基准数据集和五个大语言模型上均进行了测试。
Q3:自动评分研究的核心发现是什么?对实际应用有何启示?
A:研究的核心发现是,结构更简单的方法(尤其是单一评分标准法)在多数场景下表现不逊于复杂方法,甚至更优。复杂的提示工程策略虽在特定任务上有提升,但整体表现不稳定。这对实际应用的启示是:设计自动评分系统时,应优先考虑方法的简洁性与稳健性,避免为追求复杂度而牺牲一致性。
好文章,需要你的鼓励
FORTIS是专门测量AI代理"越权行为"的基准测试,研究发现十款顶尖模型普遍选择远超任务需要的高权限技能,端到端成功率最高仅14.3%。
谷歌在Android Show发布会上宣布,将Gemini更深度整合至Android系统,推出名为"Gemini Intelligence"的升级功能。该功能可跨应用处理日常任务,包括自动填写表单、安排日程、生成购物清单及自定义小组件等,无需用户频繁切换应用。此外,Gboard新增"Rambler"功能,可自动过滤语音输入中的口误和填充词。Gemini Intelligence将率先登陆三星Galaxy和谷歌Pixel手机,并支持Android Auto、Wear OS及智能眼镜。
荷兰Nebius团队提出SlimSpec,通过低秩分解压缩草稿模型LM-Head的内部表示而非裁剪词汇,在保留完整词汇表的同时将LM-Head计算时间压缩至原来的五分之一,端到端推理速度超越现有方法最高达9%。