随着AI系统处理的问题越来越复杂,人类验证其答案的安全性、有用性和准确性变得越来越困难。例如,验证一个研究生级别的物理问题解答需要领域专业知识,评估一篇文献综述需要大量时间,而识别代码中的竞态条件需要仔细推理。这些任务在实际时间和资源限制下,人类可能难以完成。因此,需要新的人机交互机制和训练协议来实现可扩展的监督。
在探讨如何提高人工智能系统在复杂任务中的透明度和可信度方面,纽约大学数据科学中心的研究人员提出了一种创新方法,通过自我博弈、训练语言模型进行辩论,以提高裁判的判断准确性。
这种方法通过模拟辩论的方式,让两个AI模型相互竞争,以提高对复杂问题的评估准确性。在这种对抗性的环境中,每个模型都试图找出对方的论点中的弱点,并提供反驳,这种方式自然地推动了对问题的深入理解。辩论的核心在于激励模型深入分析问题和答案,寻找可能的漏洞。这种机制不仅要求模型理解问题,还要求它们能够将这种理解传达给裁判,无论是人类还是另一个模型。
辩论方法通过竞争性的辩论,减少了对特定领域专家的直接依赖。模型的对抗性训练使它们能够自我发现和解释问题,减少了对外部专业知识的需求。在金融分析中,模型可能需要评估一个复杂的交易策略。通过辩论,模型可以揭示策略的潜在风险,而不需要依赖于具有深厚金融背景的人类专家。
此外,辩论还提高了评估的准确性。在辩论的结果是,裁判得到了两个经过深入分析的答案,每个答案都经过了对手的严格审查。这使得裁判可以更容易地判断哪个答案是正确的,因为它已经经过了额外的验证步骤。例如,在医学诊断的辩论中,一个模型可能会提出一种诊断,而另一个模型则需要评估这种诊断的合理性,并提出可能的替代诊断。裁判可以通过比较这两种分析来做出更准确的判断。
研究者们采用了QuALITY数据集,该数据集是由短篇故事组成的多项选择阅读理解问题集合,专注于挑战性更大的QuALITY-HARD子集。在实验中,一个模型被训练为辩护正确答案,而另一个模型则辩护由标注者选择的最佳干扰项。
辩论过程遵循一个两轮同时辩论的结构,其中辩论者在不知道对方开场白的情况下提出自己的开场论点,然后基于对方的开场白生成后续论点。这些辩论被汇编成记录,并提交给裁判,裁判需要判断哪一个答案更有可能是正确的,并输出他们对其判断的信心程度。
为了提供一个对照组,研究者们设计了三种咨询模型的变体。在单咨询中,一个辩论者在没有对手辩论者的情况下提出支持其立场的论点。集成咨询则是将两个单独的单咨询结果平均化,而双重咨询则是将两组论点同时呈现给裁判,以便进行直接比较。
研究者们还对裁判模型进行了微调,使用了GPT-4-Turbo的微调版本,并结合了人类对辩论和咨询记录的判断作为训练数据。辩论者和顾问模型则通过结合监督式微调和直接偏好优化(DPO)进行训练,以提高在裁判模型下赢得辩论的概率。
为了进一步优化模型,研究者们实施了自我博弈DPO训练,模型可以根据自我生成的数据进行优化。在多轮辩论训练中,模型通过自我博弈产生偏好数据集,然后使用这些数据进行DPO训练。
实验结果显示,辩论训练能显著提升AI模型作为裁判的判断准确性(提高了4%)。这种训练增强了模型使用证据的能力,使它们在辩论中的表现更为出色。
相比之下,非对抗性的咨询模型在训练中并未显示出同样的进步,而是在辩论中变得更加重复,并且在信息使用上变得不那么有效。实验还表明,辩论训练在不同难度级别的问题上均能提高准确性,而咨询模型则没有这种效果。这些发现支持了辩论训练作为一种提高AI系统评估能力的有效方法。
研究表明,通过辩论训练可以提高模型的说服力。与此相对的咨询模型,在没有对手的情况下进行训练,并没有显示出类似的准确性提高。值得注意的是,辩论训练提高准确性的效果是在没有外部真实监督的情况下实现的,这点展示了一种潜在的自我监督路径,可以使AI系统在没有持续人类参与的情况下提高自己的性能。
研究人员也指出了其局限性,目前主要集中在阅读理解任务上。未来的工作可能会探索辩论训练在其他类型的任务上的效果,以及如何进一步优化辩论训练过程。这些发现对于开发新的AI监督方法具有重要意义,因为这种方法可以在不依赖人类专家的情况下,提高AI系统的自我监督能力。
好文章,需要你的鼓励
DeepResearchGym是一个创新的开源评估框架,专为深度研究系统设计,旨在解决当前依赖商业搜索API带来的透明度和可重复性挑战。该系统由卡内基梅隆大学研究团队开发,结合了基于ClueWeb22和FineWeb大型网络语料库的可重复搜索API与严格的评估协议。实验表明,使用DeepResearchGym的系统性能与使用商业API相当,且在评估指标间保持一致性。人类评估进一步证实了自动评估协议与人类偏好的一致性,验证了该框架评估深度研究系统的有效性。
这项研究介绍了FinTagging,首个面向大型语言模型的全面财务信息提取与结构化基准测试。不同于传统方法,它将XBRL标记分解为数值识别和概念链接两个子任务,能同时处理文本和表格数据。在零样本测试中,DeepSeek-V3和GPT-4o表现最佳,但在细粒度概念对齐方面仍面临挑战,揭示了当前大语言模型在自动化XBRL标记领域的局限性,为金融AI发展提供了新方向。
这项研究介绍了SweEval,一个新型基准测试,用于评估大型语言模型在企业环境中处理脏话的能力。研究团队从Oracle AI等多家机构的专家创建了一个包含八种语言的测试集,模拟不同语调和上下文的真实场景。实验结果显示,LLM在英语中较少使用脏话,但在印地语等低资源语言中更易受影响。研究还发现较大模型通常表现更好,且多语言模型如Llama系列在处理不当提示方面优于其他模型。这项工作对企业采用AI技术时的安全考量提供了重要参考。
这项研究提出了"VeriFree"——一种不需要验证器的方法,可以增强大型语言模型(LLM)的通用推理能力。传统方法如DeepSeek-R1-Zero需要验证答案正确性,限制了其在数学和编程以外领域的应用。VeriFree巧妙地计算正确答案在模型生成的推理过程后出现的概率,作为评估和训练信号。实验表明,这种方法不仅能匹配甚至超越基于验证器的方法,还大幅降低了计算资源需求,同时消除了"奖励黑客"问题。这一突破将有助于开发出在化学、医疗、法律等广泛领域具有更强推理能力的AI系统。