Qwen2.5全家桶发布，包含7种尺寸规模

本次开源的Qwen2.5语言模型主要包含7种尺寸，0.5B到72B全尺寸覆盖，弥补了Qwen2 14B/32B这两种业务黄金尺寸缺失的遗憾，并且开源了强劲的3B的端侧模型。本次开源，一个字：尺寸丰富，性能强劲。（此外还包括Math、Code和VL专项模型）

简介

今天阿里云开源了Qwen2.5系列新一代大模型，这是继今年6月份Qwen2系列模型开源后的又一重磅更新，三个月一次大迭代，速度可谓非常之迅速。

Qwen2.5语言模型的主要特点如下：

尺寸丰富：包含0.5B/1.5B/3B/7B/14B/32B/72B等7种尺寸规模。
性能越级：性能强悍，大幅领先Qwen2，Qwen2.5-32B的整体表现超越Qwen2-72B，Qwen2.5-14B则领先于Qwen2-57B-A14B。
更多数据：预训练数据集规模从7T tokens 扩展到18T tokens。
知识升级：Qwen2.5的知识涵盖更广。在MMLU基准中，Qwen2.5-7B和72B的得分相较于Qwen2分别从70.3提升到74.2，从84.2提升到86.1。此外，在GPQA、MMLU-Pro、MMLU-redux和ARC-c等多个基准测试中有显著提升。
代码能力增强：Qwen2.5-72B-Instruct在LiveCodeBench（2305-2409）、MultiPL-E和MBPP中的分别得分为55.5、75.1和88.2，优于Qwen2-72B-Instruct的32.2、69.2和80.2。
数学能力提升：在MATH基准测试中，Qwen2.5-7B/72B-Instruct得分从Qwen2-7B/72B-Instruct的52.9/69.0上升到了 75.5/83.1。
更符合人类偏好：Qwen2.5-72B-Instruct的Arena-Hard得分由48.1提升至 81.2，MT-Bench得分也从9.12提升至9.35。
其他核心能力提升：Qwen2.5在指令跟随、生成长文本（从1K升级到 8K tokens）、理解结构化数据（如表格），以及生成结构化输出（尤其是JSON）上都有非常明显的进步。此外，Qwen2.5能够更好响应多样化的系统提示，用户可以给模型设置特定角色或自定义条件。

ModelScope：

https://modelscope.cn/organization/qwen?tab=model

HuggingFace：

https://huggingface.co/collections/Qwen/qwen25-66e81a666513e518adb90d9e

模型性能

Qwen2.5-72B基础模型在各个任务上显著超过同类模型，以不到1/5的参数达到了与Llama-3-405B相当的表现。相比Qwen2-72B，Qwen2.5-72B几乎在所有基准评测上都有显著提升，尤其在通用任务、数学和代码竞赛中。

Qwen2.5全家桶发布，包含7种尺寸规模

Qwen2.5-72B-Instruct模型展现出了极为优异的表现，甚至在多个核心任务上超越了Llama-3.1-405B，在数学、代码和对话任务任务中表现尤为突出。相较于Qwen2-72B-Instruct，Qwen2.5-72B-Instruct在各项任务上的表现都有显著提升。

Qwen2.5全家桶发布，包含7种尺寸规模

Qwen2.5-14B在多项任务中表现出色，超越了许多规模更大的竞争对手。Qwen2.5-32B 表现尤为出色，甚至优于参数更大的同类模型。特别是在数学和代码等挑战性任务中，Qwen2.5-32B 大幅领先Qwen1.5-32B，在 MATH中获得 57.7分，在MBPP中获得84.5分。

Qwen2.5全家桶发布，包含7种尺寸规模

除此之外，Qwen2.5-7B/3B/1.5B/0.5B等小参数规模的模型在同量级模型中也展现出了非常强大的性能。

Qwen2.5全家桶发布，包含7种尺寸规模

Qwen2.5也是一个多语言模型，支持东南亚语、阿拉伯语、葡萄牙语、日语、韩语等。在多语言评测中，Qwen2.5-72B-Instruct的总体能力显著超越GPT4o-mini、Llama3.1-70B-Instruct、Mistral-Large-Instruct-2407等模型。

Qwen2.5全家桶发布，包含7种尺寸规模

Qwen2.5-7B-Instruct的多语言能力也显著优于同量级模型。

Qwen2.5全家桶发布，包含7种尺寸规模

推理 & 微调

Qwen2.5的模型结构与Qwen2、Qwen1.5对齐，所以可以直接沿用此前的推理脚本，脚本如下：

from transformers import AutoModelForCausalLM, AutoTokenizer
model_name = "Qwen/Qwen2.5-7B-Instruct"device = "cuda" # the device to load the model onto
model = AutoModelForCausalLM.from_pretrained( model_name, torch_dtype="auto", device_map="auto")tokenizer = AutoTokenizer.from_pretrained(model_name)
prompt = "Find the value of $x$ that satisfies the equation x+5 = 6x+7$."messages = [ {"role": "system", "content": "You are a helpful assistant."}, {"role": "user", "content": prompt}]text = tokenizer.apply_chat_template( messages, tokenize=False, add_generation_prompt=True)model_inputs = tokenizer([text], return_tensors="pt").to(device)
generated_ids = model.generate( **model_inputs, max_new_tokens=512)generated_ids = [ output_ids[len(input_ids):] for input_ids, output_ids in zip(model_inputs.input_ids, generated_ids)]
response = tokenizer.batch_decode(generated_ids, skip_special_tokens=True)[0]

此外，你也可以直接使用Firefly对Qwen2.5进行微调，与Qwen1.5和Qwen2的微调方式完全一样。

Firefly项目链接：https://github.com/yangjianxin1/Firefly

首先拉取项目代码库：

git clone https://github.com/yangjianxin1/Firefly.git

执行以下命令，即可使用QLoRA训练Qwen2.5-7B-Instruct模型：

cd Fireflypython train.py --train_args_file train_args/sft/qlora/qwen2.5-7b-sft-qlora.json

结合QLoRA，开启Unsloth训练Qwen2.5-7B，最少仅需8.43GB显存，开启Unsloth后，实测Qwen2.5-7B的训练速度可提升47.32%，训练时间可减少32.12%，显存占用可减少39.13%。可以拍拍手中的1080ti、4090显卡的灰尘，拿来训练Qwen2.5模型了。

Qwen2.5全家桶发布，包含7种尺寸规模