01
前言
本文主要介绍Unsloth,它可以显著提升大模型的训练速度,减少显存占用,我们将其整合到Firefly训练框架中,实现对Llama3、Llama2、Mistral、Gemma、Zephyr等模型训练的「降本增速」。
我们实测了Unsloth所带来的训练增益,对Llama3-8B进行QLoRA训练,最少仅需7.75GB显存,这意味着我们可以在一张1080Ti上训练Llama3-8B,进一步降低了大模型训练的硬件门槛。开启Unsloth后,Llama3-8B的训练速度可提升44.35%,训练时间可减少30.72%,显存占用可减少42.58%。更详细的测试设置可参考第三节。
Firefly项目链接:
https://github.com/yangjianxin1/Firefly
Unsloth项目链接:
https://github.com/unslothai/unsloth
02
Unsloth简介
Unsloth是一个开源的大模型训练加速项目,使用OpenAI的Triton对模型的计算过程进行重写,大幅提升模型的训练速度,降低训练中的显存占用。Unsloth能够保证重写后的模型计算的一致性,实现中不存在近似计算,模型训练的精度损失为零。Unsloth支持绝大多数主流的GPU设备,包括V100, T4, Titan V, RTX 20, 30, 40x, A100, H100, L40等,支持对LoRA和QLoRA的训练加速和高效显存管理,支持Flash Attention。
Unsloth对大模型的训练提升如下图所示。在一张A100上,使用QLoRA对不同的模型进行训练,Llama2-7B的训练速度是原来的1.87倍,显存占用减少39.3%,Mistral-7B的训练速度是原来的1.88倍,显存占用减少65.9%。在无精度损失的前提下,Unsloth对大模型训练具有显著的「降本增速」作用,可谓是「免费的午餐」。
更重要的是,Unsloth与HuggingFace生态兼容,可以很容易将其与transformers、peft、trl等代码库进行结合,以实现模型的SFT与DPO,仅需修改模型的加载方式即可,无需对此前的训练代码进行过多的修改。Demo如下所示。
from unsloth import FastLanguageModel
import torchfrom trl
import SFTTrainerfrom transformers
import TrainingArguments
from datasets import load_datasetmax_seq_length = 2048
# Supports RoPE Scaling interally, so choose any!
# Get LAION dataseturl = "https://huggingface.co/datasets/laion/OIG/resolve/main/unified_chip2.jsonl"
dataset = load_dataset("json", data_files = {"train" : url}, split = "train")
# 4bit pre quantized models we support for 4x faster downloading + no OOMs.
fourbit_models = [
"unsloth/mistral-7b-bnb-4bit",
"unsloth/mistral-7b-instruct-v0.2-bnb-4bit",
"unsloth/llama-2-7b-bnb-4bit",
"unsloth/gemma-7b-bnb-4bit",
"unsloth/gemma-7b-it-bnb-4bit",
# Instruct version of Gemma 7b"unsloth/gemma-2b-bnb-4bit",
"unsloth/gemma-2b-it-bnb-4bit",
# Instruct version of Gemma 2b"unsloth/llama-3-8b-bnb-4bit",
# [NEW] 15 Trillion token Llama-3"unsloth/Phi-3-mini-4k-instruct-bnb-4bit",
]
# More models at https://huggingface.co/unsloth
model, tokenizer = FastLanguageModel.from_pretrained(
model_name = "unsloth/llama-3-8b-bnb-4bit",
max_seq_length = max_seq_length,
dtype = None,
load_in_4bit = True,
)
# Do model patching and add fast LoRA weights
model = FastLanguageModel.get_peft_model(
model,
r = 16,
target_modules = ["q_proj", "k_proj", "v_proj", "o_proj",
"gate_proj", "up_proj", "down_proj",],
lora_alpha = 16,
lora_dropout = 0,
# Supports any, but = 0 is optimizedbias = "none",
# Supports any, but = "none" is optimized# [NEW] "unsloth" uses 30% less VRAM, fits 2x larger batch sizes!
use_gradient_checkpointing = "unsloth",
# True or "unsloth" for very long contextrandom_state = 3407,
max_seq_length = max_seq_length,
use_rslora = False, # We support rank stabilized LoRA
loftq_config = None, # And LoftQ
)
trainer = SFTTrainer(
model = model,
train_dataset = dataset,
dataset_text_field = "text",
max_seq_length = max_seq_length,
tokenizer = tokenizer,
args = TrainingArguments(
per_device_train_batch_size = 2,
gradient_accumulation_steps = 4,
warmup_steps = 10,
max_steps = 60,
fp16 = not torch.cuda.is_bf16_supported(),
bf16 = torch.cuda.is_bf16_supported(),
logging_steps = 1,
output_dir = "outputs",
optim = "adamw_8bit",
seed = 3407,
),
)
trainer.train()
尚未开源的Unsloth Pro与Max版本,有着更强劲的训练效率的提升。
目前开源版本的Unsloth,仅支持单机单卡训练,且仅支持Llama2、Llama3、Mistral、Gemma、Zephyr、TinyLlama、Phi-3等模型。遗憾的是,Qwen2并不在Unsloth的支持列表中,该需求在Unsloth的issue中也被频繁提及。
Unsloth官方在短期内暂时没有支持Qwen2的计划,更多的是建议用户将Qwen2的权重进行Llama化,然后采用Llama的训练方式。但对Qwen2的权重进行Llama化后,模型性能有显著的下降。对于该问题,Firefly项目组也正在进行尝试,希望能够使Unsloth原生支持Qwen2,目前处于测试阶段,敬请期待。
03
Unsloth实践 & 测试
拉取Firefly代码库:
git clone https://github.com/yangjianxin1/Firefly.git
在Firefly中启动Unsloth训练Llama3,仅需在训练配置文件中将use_unsloth设为true即可,use_unsloth默认为False。
pip install git+https://github.com/unslothai/unsloth.git
pip install transformers==4.37
pip install bitsandbytes==0.43.1
pip install peft==0.10.0
pip install torch==2.2.2
pip install xformers==0.0.25.post1
python train.py --train_args_file train_args/sft/qlora/llama3-8b-sft-qlora.json
我们在一张V100上对Llama3-8B进行QLoRA训练,使用相同的数据集训练50步,开启gradient_checkpointing,每条数据均padding至max_seq_length,在所有linear层均插入adapter,由于V100不支持Flash Attention,所以本测试未开启Flash Attention。Unsloth所带来的训练增益如下表所示。
结合QLoRA与Unsloth训练Llama3-8B,最少仅需7.75GB显存,开启Unsloth后,Llama3-8B的训练速度可提升44.35%,训练时间可减少30.72%,显存占用可减少42.58%。当max_seq_length或者per_device_train_batch_size增大时,Unsloth节省显存的优势更加明显。
从上述结果来看,Unsloth对于训练加速和节省显存的效果非常显著,我们也正在对Unsloth支持Qwen2的工作进行尝试。
好文章,需要你的鼓励
Canva宣布收购生成式AI内容创作初创公司Leonardo.ai,交易条款未披露,但采用现金加股票的混合方式。Leonardo.ai的120名员工将全部加入Canva。Leonardo.ai成立于2022年,拥有1900万注册用户,其工具已创建超过10亿张图像。该公司将继续独立运营,专注于快速创新和研发。此次收购旨在帮助Canva扩展其Magic Studio生成式AI套件功能。
希伯来大学研究团队开发的Story2Board系统实现了从文字故事到专业故事板的自动转换突破。该系统采用潜在面板锚定和相互注意力数值混合两项核心技术,在保持角色一致性的同时实现丰富的视觉表现力。系统无需训练即可运行,能够生成电影级构图效果的连续画面,为内容创作、教育和娱乐产业提供了强大的AI辅助工具,代表了人机协作创作的新模式。
亚马逊推出Quick Suite软件平台,旨在简化AI智能体和企业聊天机器人的创建过程。该平台支持50个企业级应用集成,包括Office 365、Slack等,提供无代码环境连接内部文档和数据源。平台包含Quick Flows自动化工具、Quick Research研究功能等组件。尽管降低了技术门槛,但AI智能体的准确性仍存疑虑,研究显示其办公任务错误率达70%。
北京邮电大学联合腾讯团队开发的We-Math 2.0系统,通过构建491个知识点的数学知识体系、创新的三维难度建模和渐进式强化学习框架,让AI模型获得了真正的数学推理能力。该系统仅用9800个高质量样本就达到了与大规模数据训练相当的性能,在多个基准测试中表现优异,为AI数学教育应用开辟了新道路。