01
简介
今天阿里云开源了Qwen2.5系列新一代大模型,这是继今年6月份Qwen2系列模型开源后的又一重磅更新,三个月一次大迭代,速度可谓非常之迅速。
本次开源的Qwen2.5语言模型主要包含7种尺寸,0.5B到72B全尺寸覆盖,弥补了Qwen2 14B/32B这两种业务黄金尺寸缺失的遗憾,并且开源了强劲的3B的端侧模型。本次开源,一个字:尺寸丰富,性能强劲。(此外还包括Math、Code和VL专项模型)
Qwen2.5语言模型的主要特点如下:
ModelScope:
https://modelscope.cn/organization/qwen?tab=model
HuggingFace:
https://huggingface.co/collections/Qwen/qwen25-66e81a666513e518adb90d9e
02
模型性能
Qwen2.5-72B基础模型在各个任务上显著超过同类模型,以不到1/5的参数达到了与Llama-3-405B相当的表现。相比Qwen2-72B,Qwen2.5-72B几乎在所有基准评测上都有显著提升,尤其在通用任务、数学和代码竞赛中。
Qwen2.5-72B-Instruct模型展现出了极为优异的表现,甚至在多个核心任务上超越了Llama-3.1-405B,在数学、代码和对话任务任务中表现尤为突出。相较于Qwen2-72B-Instruct,Qwen2.5-72B-Instruct在各项任务上的表现都有显著提升。
Qwen2.5-14B在多项任务中表现出色,超越了许多规模更大的竞争对手。Qwen2.5-32B 表现尤为出色,甚至优于参数更大的同类模型。特别是在数学和代码等挑战性任务中,Qwen2.5-32B 大幅领先Qwen1.5-32B,在 MATH中获得 57.7分,在MBPP中获得84.5分。
除此之外,Qwen2.5-7B/3B/1.5B/0.5B等小参数规模的模型在同量级模型中也展现出了非常强大的性能。
Qwen2.5也是一个多语言模型,支持东南亚语、阿拉伯语、葡萄牙语、日语、韩语等。在多语言评测中,Qwen2.5-72B-Instruct的总体能力显著超越GPT4o-mini、Llama3.1-70B-Instruct、Mistral-Large-Instruct-2407等模型。
Qwen2.5-7B-Instruct的多语言能力也显著优于同量级模型。
03
推理 & 微调
Qwen2.5的模型结构与Qwen2、Qwen1.5对齐,所以可以直接沿用此前的推理脚本,脚本如下:
from transformers import AutoModelForCausalLM, AutoTokenizer
model_name = "Qwen/Qwen2.5-7B-Instruct"
device = "cuda" # the device to load the model onto
model = AutoModelForCausalLM.from_pretrained(
model_name,
torch_dtype="auto",
device_map="auto"
)
tokenizer = AutoTokenizer.from_pretrained(model_name)
prompt = "Find the value of $x$ that satisfies the equation x+5 = 6x+7$."
messages = [
{"role": "system", "content": "You are a helpful assistant."},
{"role": "user", "content": prompt}
]
text = tokenizer.apply_chat_template(
messages,
tokenize=False,
add_generation_prompt=True
)
model_inputs = tokenizer([text], return_tensors="pt").to(device)
generated_ids = model.generate(
**model_inputs,
max_new_tokens=512
)
generated_ids = [
output_ids[len(input_ids):] for input_ids, output_ids in zip(model_inputs.input_ids, generated_ids)
]
response = tokenizer.batch_decode(generated_ids, skip_special_tokens=True)[0]
此外,你也可以直接使用Firefly对Qwen2.5进行微调,与Qwen1.5和Qwen2的微调方式完全一样。
Firefly项目链接:https://github.com/yangjianxin1/Firefly
首先拉取项目代码库:
git clone https://github.com/yangjianxin1/Firefly.git
执行以下命令,即可使用QLoRA训练Qwen2.5-7B-Instruct模型:
cd Firefly
python train.py --train_args_file train_args/sft/qlora/qwen2.5-7b-sft-qlora.json
结合QLoRA,开启Unsloth训练Qwen2.5-7B,最少仅需8.43GB显存,开启Unsloth后,实测Qwen2.5-7B的训练速度可提升47.32%,训练时间可减少32.12%,显存占用可减少39.13%。可以拍拍手中的1080ti、4090显卡的灰尘,拿来训练Qwen2.5模型了。
04
模型体验
JSON格式遵循,利好开发。
输入:将"通义千问Qwen2.5 YYDS"进行倒序输出,首先输出你的思考过程,最后再输出结果
Qwen2.5理解了藏头诗的含义。
好文章,需要你的鼓励
微软正与OpenAI进行高级谈判,旨在确保即使OpenAI实现通用人工智能后仍能继续使用其技术。据报道,双方谈判进展积极,可能在几周内达成协议。该协议将为OpenAI向完全商业化企业转型扫清关键障碍。微软已投资137.5亿美元,希望在重组后的公司中获得更大股份,谈判涉及30%左右的股权比例,同时确保Azure和Copilot等服务的技术供应安全。
这项由Midjourney团队主导的研究解决了AI创意写作中的关键问题:如何让AI既能写出高质量内容,又能保持创作的多样性和趣味性。通过引入"偏差度"概念和开发DDPO、DORPO两种新训练方法,他们成功让AI学会从那些被传统方法忽视的优秀独特样本中汲取创意灵感,最终训练出的模型在保持顶级质量的同时,创作多样性接近人类水平,为AI创意写作开辟了新方向。
AI初创公司Arcee.ai发布45亿参数的企业级AI模型AFM-4.5B,采用严格筛选的清洁数据训练。该模型专为商业和企业用途设计,年收入低于175万美元的企业可免费使用。相比数百亿参数的大模型,AFM-4.5B在保持强劲性能的同时具备成本效益和监管合规性。模型支持云端、本地和边缘部署,内置函数调用和智能体推理功能,旨在满足企业对速度、主权和规模的需求。
上海AI实验室联合多所高校开发出VisualPRM系统,这是首个专门用于多模态推理的过程奖励模型。该系统能像老师批改作业一样逐步检查AI的推理过程,显著提升了AI在视觉推理任务上的表现。研究团队构建了包含40万样本的训练数据集和专门的评估基准,实现了在七个推理基准上的全面性能提升,即使是最先进的大型模型也获得了5.9个百分点的改进。