目前为定制大语言模型 ( LLM ) 以适应下游任务,广泛采用两种方法:微调 ( Fine-tuning ) 与上下文学习 ( In-context learning, ICL ) 。近期,Google DeepMind 与斯坦福大学的研究者探讨了这两种方法的泛化能力,他们发现上下文学习 ( ICL ) 具有更强的泛化能力(但这在推理时会带来更高的计算成本);他们还提出了一种新方法以兼具两者优势。
该研究成果有助于开发者在为企业定制大语言模型应用、处理专属数据时做出关键决策。
测试语言模型如何学习新技能
微调是指在预训练好的大语言模型上,针对较小且专业化的数据集进行进一步训练,从而调整模型内部参数以传授新的知识或技能。而上下文学习 ( ICL ) 则不改变模型的底层参数,而是通过在输入提示中直接提供所需任务的示例来引导大语言模型,模型随后利用这些示例来判断如何处理新的、类似的问题。
研究者旨在严谨对比这两种方法在新任务上的泛化能力,他们构建了具有复杂且自洽结构的“受控合成事实知识数据集”,例如虚构的家谱或虚构概念的层级结构。为了确保测试模型学习新信息的能力,他们将所有名词、形容词和动词替换为无意义的词汇,以避免与大语言模型在预训练过程中可能遇到的数据产生重叠。
随后,研究者对模型进行了各类泛化能力测试。例如,一项测试涉及简单的顺序反转:如果模型被训练为“ femp 比 glon 更危险”,是否能正确推断出“ glon 比 femp 不那么危险”?另一项测试侧重于简单三段论,这是一种逻辑推理形式:如果告知“所有 glon 都是 yomp”以及“所有 troff 都是 glon”,模型是否能推理出“所有 troff 都是 yomp”?他们还使用了一个更复杂的“语义结构基准测试”,该测试建立了更丰富的虚构事实层级,以评估模型更细腻的理解能力。
Google DeepMind 的研究科学家兼论文主要作者 Andrew Lampinen 告诉 VentureBeat:“我们的研究结果主要针对模型通过对新知识结构微调时在推理与反转方面的泛化能力,这对于利用微调将模型适应公司专有数据的场景具有明确意义。”
为了评估性能,研究者在这些数据集上微调了 Gemini 1.5 Flash;而在上下文学习 ( ICL ) 实验中,他们将整个训练数据集(或其大部分子集)作为上下文输入到经过指令调优的模型中,然后提出测试问题。
结果始终显示,在数据匹配的设置下,上下文学习的泛化效果优于标准微调。采用上下文学习的模型通常在反转关系或从上下文中进行逻辑推理等任务上表现更佳;而未经微调或上下文学习的预训练模型表现较差,这也表明测试数据具有新颖性。
Lampinen 表示:“需要考虑的主要权衡之一是,虽然上下文学习不需要微调(从而节省训练成本),但由于每次使用时必须提供额外上下文,因此在推理阶段普遍计算成本更高;另一方面,我们评估的数据集和模型上,ICL 的泛化效果往往更好。”
一种混合方法:增强微调
基于上下文学习在灵活泛化方面的卓越表现,研究者提出了一种新方法来增强微调:在微调数据中加入上下文推理。其核心思想是利用大语言模型自身的上下文学习能力生成更多样化、推理丰富的示例,然后将这些增强示例添加到微调所用的数据集中。
他们探索了两种主要的数据增强策略:
局部策略:这种方法侧重于单个信息片段,通过提示大语言模型对训练数据中的单个句子进行重述或直接推理(例如生成反转句)。
全局策略:这种方法是将整个训练数据集作为上下文,接着提示大语言模型通过将某个特定文档或事实与其他信息联系起来生成推理,从而展现更长的推理链条。
当模型在这些增强数据集上进行微调时,性能得到了显著提升;这种增强微调不仅在泛化性上超越了标准微调,也优于单纯的上下文学习。
Lampinen 表示:“例如,如果某个公司文件中提到‘XYZ 是用于数据分析的内部工具’,我们的结果表明,上下文学习和增强微调会使模型在回答‘目前有哪些用于数据分析的内部工具?’等相关问题时更加高效。”
这种方法为企业指明了一条前景广阔的路线:通过投入创建这些上下文学习增强的数据集,开发者可以构建出具备更强泛化能力的微调模型,从而形成更稳健、可靠的大语言模型应用,在面对多样化实际输入时表现更优,同时避免了每次推理时都需载入大量上下文提示的成本。
Lampinen 表示:“增强微调通常会使微调过程成本更高,因为它需要额外一步利用上下文学习来扩充数据,随后再进行微调;但从长期、多次使用模型的角度来看,这比每次使用时都采用上下文学习要在计算上更经济。”
虽然 Lampinen 指出还需进一步研究各组件在不同场景下的相互作用,但他补充道,他们的研究发现表明,开发者在单纯微调效果不佳的情况下,可能需要考虑尝试增强微调的方法。
Lampinen 最后表示:“我们希望这项工作能为理解基础模型的学习与泛化机制,以及将其应用于下游任务的实践提供科学支持。”
好文章,需要你的鼓励
Cadence 与 Nvidia 合作推出新一代 AI 加速超级计算机 Millennium M2000,显著提升仿真效能,加速芯片设计、药物研发等领域创新。
诺丁汉大学研发的ORBIT数字疗法获NHS初步支持,用于改善Tourette综合征等抽动症状。该在线自助认知行为疗法经历临床试验证明效果显著,未来三年将在NHS推广。
Classiq是一家开发量子算法平台的初创企业,通过1.1亿美元C轮融资,加速研发简化量子编程、跨平台兼容的操作系统,助推量子应用落地。