少即是多：研究表明 AI 模型在自主学习时泛化效果更好

香港大学和加州大学伯克利分校的一项新研究显示，在没有人工标注数据的情况下，语言模型和视觉语言模型能够更好地泛化。这一发现挑战了大型语言模型社区的主流观点，即模型需要手工标注的训练样本。研究表明，过度依赖人工示例反而可能对模型的泛化能力产生负面影响。

根据香港大学和加州大学伯克利分校的一项新研究显示，当语言模型被允许自主创造解决方案时，其泛化能力会更强。这一发现同时适用于大语言模型 (LLM) 和视觉语言模型 (VLM)，它挑战了 LLM 领域的一个主要观点 —— 即模型需要人工标注的训练样本。事实上，研究人员发现，在过多人工制作的样本上训练模型可能会对其处理未见数据的泛化能力产生负面影响。

模型训练中的 SFT 与 RL

长期以来，监督微调 (SFT) 一直是训练 LLM 和 VLM 的黄金标准。模型在原始文本和图像数据上预训练后，企业和 AI 实验室通常会在大量按问答或请求/响应格式手工制作的样本数据集上进行后训练。在 SFT 之后，模型可以进行额外的训练阶段，比如基于人类反馈的强化学习 (RLHF)，模型通过诸如答案排名或对模型响应的喜欢/不喜欢等信号来学习隐含的人类偏好。

SFT 有助于引导模型的行为朝着创建者设计的任务方向发展。然而，收集数据是一个缓慢且昂贵的过程，这成为许多公司和实验室的瓶颈。

LLM 的最新发展引发了人们对纯强化学习 (RL) 方法的兴趣，在这种方法中，模型被赋予一个任务并被允许自主学习，而无需人工制作的样本。最重要的例子是 DeepSeek-R1，这个 OpenAI 的竞争对手主要使用强化学习来学习复杂的推理任务。

泛化与记忆

机器学习 (ML) 系统的一个关键问题是过拟合，即模型在训练数据上表现良好但无法泛化到未见样本。在训练过程中，模型给人一种已经学会任务的错觉，而实际上它只是记住了训练样本。在大型复杂的 AI 模型中，区分泛化和记忆可能很困难。

这项新研究focused on强化学习和SFT训练在文本和视觉推理任务中的泛化能力。对于文本推理，在一组规则上训练的 LLM 应该能够泛化到这些规则的变体。在视觉推理中，VLM 应该在视觉输入的不同方面（如颜色和空间布局）发生变化时保持任务表现的一致性。

在实验中，研究人员使用了两个具有代表性的任务。第一个是 GeneralPoints，这是一个评估模型算术推理能力的基准。模型会得到四张卡片（以文本描述或图像形式），并被要求将它们组合以达到目标数字。为了研究基于规则的泛化，研究人员使用一组规则训练模型，然后用不同的规则评估它。对于视觉泛化，他们使用一种颜色的卡片训练模型，然后测试其在其他颜色和编号方案的卡片上的表现。

第二个任务是 V-IRL，它在使用真实视觉输入的开放世界导航领域中测试模型的空间推理能力。这个任务也有纯语言和视觉语言版本。研究人员通过改变模型训练和测试时使用的指令类型和视觉表示来评估泛化能力。

他们在 Llama-3.2-Vision-11B 上进行测试，首先通过在小型 SFT 数据集上训练来预热模型，然后为每个任务和训练范式创建单独的版本。对于每个任务，他们分别扩展了 RL 和 SFT 的训练。SFT 过程在额外的手工制作的解决方案上训练模型，而 RL 则让模型为每个问题生成多个解决方案，评估结果并在正确答案上自我训练。

研究结果表明，强化学习在与训练数据显著不同的样本上始终能改善性能。相反，SFT 似乎记住了训练规则，无法泛化到分布外 (OOD) 样本。这些观察结果同时适用于纯文本和多模态设置。

对实际应用的影响

虽然实验表明 RL 在泛化方面优于 SFT，但研究人员也发现 SFT 有助于稳定模型的输出格式，对于使 RL 实现其性能提升至关重要。研究人员发现，没有初始 SFT 阶段，RL 训练无法达到理想的结果。

这与 DeepSeek-R1-Zero（仅用纯 RL 进行后训练）获得的结果有所不同。研究人员认为这可能是由于他们在实验中使用了不同的基础模型。

很明显，以 RL 为主的方法仍有大量未被开发的潜力。对于具有可验证结果的用例，让模型自主学习往往能带来人类无法自行设计的意外成果。这在创建手工示例既繁琐又昂贵的场景中特别有用。

来源：VentureBeat

0赞

好文章，需要你的鼓励

少即是多：研究表明 AI 模型在自主学习时泛化效果更好

来源：VentureBeat

2025

02/18

16:50

分享

点赞

英伟达发布全新小型开源模型Nemotron-Nano-9B-v2，支持推理开关控制

谷歌翻译将集成AI功能并增加游戏化学习模式

边缘AI基础设施的现实挑战与解决方案

Hugging Face：企业在不牺牲性能下降低AI成本的5种方法

阿里推出Ovis2.5：多模态大语言模型的又一重要突破

对话谷歌副总裁Karen Teo：“短剧”“AI应用”现象级出海，我们看到中国开发者的三种内核

谷歌Gemini大模型登陆甲骨文云平台

Linux的微内核替代方案？Debian/Hurd证明微内核Unix梦想仍在继续

你的每一个问题、每一条评论，我都在记录

2035年最热门的十大颠覆性产业

AI"教父"提出让AI具备母性本能引发争议

生成式AI助力MIT科学家对抗超级细菌

最热门的 AI 模型：它们的功能和使用方法

这款古怪的 AI 智能手机可以创建你的数字分身

Faireez 获 750 万美元融资，为租赁市场提供 AI 驱动的酒店式管家服务

Broadcom 大获全胜：70% 大型 VMware 客户购买其最全面解决方案

Peer 获得1050万美元元宇宙引擎投资，推出3D个人星球功能

获 3000 万美元融资，Crogl 发布面向安全分析师的全新 AI "钢铁侠战衣"

Turing 获得 1.11 亿美元融资，估值达到 22 亿美元，为 OpenAI 等大语言模型公司提供关键代码支持

Tavus 推出系列 AI 模型，实现实时人脸交互技术突破

Welevel 获得 570 万美元融资，革新程序化游戏开发

AI 驱动的卓越运营：企业如何通过人人可及的流程智能提升成功

如果您非常迫切的想了解IT领域最新产品与技术信息，那么订阅至顶网技术邮件将是您的最佳途径之一

关于AI Agent落地，李开复强调了两件事：“价值交付”和“一把手工程”

AWS re:Inforce：费城这天不只拼进球，还拼生成式AI安全

在欧洲之门马德里，我们再次见证了SAP激活企业增长的“飞轮”

IEEE专家委员胡凝：消解AI幻觉“阴影”，洞见“超级个体”价值锚点

关注官方公众号

关注官方微博

关注官方喜马拉雅

友情链接

业界热点: