根据香港大学和加州大学伯克利分校的一项新研究显示,当语言模型被允许自主创造解决方案时,其泛化能力会更强。这一发现同时适用于大语言模型 (LLM) 和视觉语言模型 (VLM),它挑战了 LLM 领域的一个主要观点 —— 即模型需要人工标注的训练样本。事实上,研究人员发现,在过多人工制作的样本上训练模型可能会对其处理未见数据的泛化能力产生负面影响。
模型训练中的 SFT 与 RL
长期以来,监督微调 (SFT) 一直是训练 LLM 和 VLM 的黄金标准。模型在原始文本和图像数据上预训练后,企业和 AI 实验室通常会在大量按问答或请求/响应格式手工制作的样本数据集上进行后训练。在 SFT 之后,模型可以进行额外的训练阶段,比如基于人类反馈的强化学习 (RLHF),模型通过诸如答案排名或对模型响应的喜欢/不喜欢等信号来学习隐含的人类偏好。
SFT 有助于引导模型的行为朝着创建者设计的任务方向发展。然而,收集数据是一个缓慢且昂贵的过程,这成为许多公司和实验室的瓶颈。
LLM 的最新发展引发了人们对纯强化学习 (RL) 方法的兴趣,在这种方法中,模型被赋予一个任务并被允许自主学习,而无需人工制作的样本。最重要的例子是 DeepSeek-R1,这个 OpenAI 的竞争对手主要使用强化学习来学习复杂的推理任务。
泛化与记忆
机器学习 (ML) 系统的一个关键问题是过拟合,即模型在训练数据上表现良好但无法泛化到未见样本。在训练过程中,模型给人一种已经学会任务的错觉,而实际上它只是记住了训练样本。在大型复杂的 AI 模型中,区分泛化和记忆可能很困难。
这项新研究focused on强化学习和SFT训练在文本和视觉推理任务中的泛化能力。对于文本推理,在一组规则上训练的 LLM 应该能够泛化到这些规则的变体。在视觉推理中,VLM 应该在视觉输入的不同方面(如颜色和空间布局)发生变化时保持任务表现的一致性。
在实验中,研究人员使用了两个具有代表性的任务。第一个是 GeneralPoints,这是一个评估模型算术推理能力的基准。模型会得到四张卡片(以文本描述或图像形式),并被要求将它们组合以达到目标数字。为了研究基于规则的泛化,研究人员使用一组规则训练模型,然后用不同的规则评估它。对于视觉泛化,他们使用一种颜色的卡片训练模型,然后测试其在其他颜色和编号方案的卡片上的表现。
第二个任务是 V-IRL,它在使用真实视觉输入的开放世界导航领域中测试模型的空间推理能力。这个任务也有纯语言和视觉语言版本。研究人员通过改变模型训练和测试时使用的指令类型和视觉表示来评估泛化能力。
他们在 Llama-3.2-Vision-11B 上进行测试,首先通过在小型 SFT 数据集上训练来预热模型,然后为每个任务和训练范式创建单独的版本。对于每个任务,他们分别扩展了 RL 和 SFT 的训练。SFT 过程在额外的手工制作的解决方案上训练模型,而 RL 则让模型为每个问题生成多个解决方案,评估结果并在正确答案上自我训练。
研究结果表明,强化学习在与训练数据显著不同的样本上始终能改善性能。相反,SFT 似乎记住了训练规则,无法泛化到分布外 (OOD) 样本。这些观察结果同时适用于纯文本和多模态设置。
对实际应用的影响
虽然实验表明 RL 在泛化方面优于 SFT,但研究人员也发现 SFT 有助于稳定模型的输出格式,对于使 RL 实现其性能提升至关重要。研究人员发现,没有初始 SFT 阶段,RL 训练无法达到理想的结果。
这与 DeepSeek-R1-Zero(仅用纯 RL 进行后训练)获得的结果有所不同。研究人员认为这可能是由于他们在实验中使用了不同的基础模型。
很明显,以 RL 为主的方法仍有大量未被开发的潜力。对于具有可验证结果的用例,让模型自主学习往往能带来人类无法自行设计的意外成果。这在创建手工示例既繁琐又昂贵的场景中特别有用。
好文章,需要你的鼓励
这项研究介绍了VisCoder,一个经过专门微调的大语言模型,用于生成可执行的Python可视化代码。研究团队创建了包含20万样本的VisCode-200K数据集,结合了可执行代码示例和多轮修正对话。在PandasPlotBench基准测试中,VisCoder显著优于同等规模的开源模型,甚至在某些方面超越了GPT-4o-mini。研究还引入了自我调试评估模式,证明了反馈驱动学习对提高代码可执行性和视觉准确性的重要性。
这项研究提出了"适应再连续学习"(ACL)框架,一种创新的方法解决预训练模型在连续学习中的稳定性-可塑性困境。通过在学习新任务前先对模型进行适应性调整,ACL使模型既能更好地学习新知识(提高可塑性),又能保留已有知识(维持稳定性)。实验证明,该框架能显著提升各种连续学习方法的性能,为解决人工智能系统中的"灾难性遗忘"问题提供了有效途径。
这篇研究首次关注了CLIP模型文本编码器的对抗鲁棒性问题,提出了LEAF方法(Levenshtein高效对抗性微调)来增强文本编码器的稳健性。实验表明,LEAF显著提高了模型在面对文本扰动时的性能,在AG-News数据集上将对抗准确率从44.5%提升至63.3%。当集成到Stable Diffusion等文本到图像生成模型中时,LEAF显著提高了对抗噪声下的生成质量;在多模态检索任务中,它平均提高了10个百分点的召回率。此外,LEAF还增强了模型的可解释性,使文本嵌入的反演更加准确。
BenchHub是由韩国KAIST和Yonsei大学研究团队开发的统一评估平台,整合了38个基准中的30万个问题,按技能、学科和目标类型进行精细分类。研究显示现有评估基准存在领域分布偏差,而BenchHub通过自动分类系统和用户友好界面,让用户能根据特定需求筛选评估数据。实验证明模型在不同领域的排名差异巨大,强调了定制化评估的重要性。该平台支持多语言扩展和领域特化,为研究人员和开发者提供了灵活评估大语言模型的强大工具。