01
简介
今天阿里云开源了Qwen2.5系列新一代大模型,这是继今年6月份Qwen2系列模型开源后的又一重磅更新,三个月一次大迭代,速度可谓非常之迅速。
本次开源的Qwen2.5语言模型主要包含7种尺寸,0.5B到72B全尺寸覆盖,弥补了Qwen2 14B/32B这两种业务黄金尺寸缺失的遗憾,并且开源了强劲的3B的端侧模型。本次开源,一个字:尺寸丰富,性能强劲。(此外还包括Math、Code和VL专项模型)
Qwen2.5语言模型的主要特点如下:
ModelScope:
https://modelscope.cn/organization/qwen?tab=model
HuggingFace:
https://huggingface.co/collections/Qwen/qwen25-66e81a666513e518adb90d9e
02
模型性能
Qwen2.5-72B基础模型在各个任务上显著超过同类模型,以不到1/5的参数达到了与Llama-3-405B相当的表现。相比Qwen2-72B,Qwen2.5-72B几乎在所有基准评测上都有显著提升,尤其在通用任务、数学和代码竞赛中。
Qwen2.5-72B-Instruct模型展现出了极为优异的表现,甚至在多个核心任务上超越了Llama-3.1-405B,在数学、代码和对话任务任务中表现尤为突出。相较于Qwen2-72B-Instruct,Qwen2.5-72B-Instruct在各项任务上的表现都有显著提升。
Qwen2.5-14B在多项任务中表现出色,超越了许多规模更大的竞争对手。Qwen2.5-32B 表现尤为出色,甚至优于参数更大的同类模型。特别是在数学和代码等挑战性任务中,Qwen2.5-32B 大幅领先Qwen1.5-32B,在 MATH中获得 57.7分,在MBPP中获得84.5分。
除此之外,Qwen2.5-7B/3B/1.5B/0.5B等小参数规模的模型在同量级模型中也展现出了非常强大的性能。
Qwen2.5也是一个多语言模型,支持东南亚语、阿拉伯语、葡萄牙语、日语、韩语等。在多语言评测中,Qwen2.5-72B-Instruct的总体能力显著超越GPT4o-mini、Llama3.1-70B-Instruct、Mistral-Large-Instruct-2407等模型。
Qwen2.5-7B-Instruct的多语言能力也显著优于同量级模型。
03
推理 & 微调
Qwen2.5的模型结构与Qwen2、Qwen1.5对齐,所以可以直接沿用此前的推理脚本,脚本如下:
from transformers import AutoModelForCausalLM, AutoTokenizer
model_name = "Qwen/Qwen2.5-7B-Instruct"
device = "cuda" # the device to load the model onto
model = AutoModelForCausalLM.from_pretrained(
model_name,
torch_dtype="auto",
device_map="auto"
)
tokenizer = AutoTokenizer.from_pretrained(model_name)
prompt = "Find the value of $x$ that satisfies the equation x+5 = 6x+7$."
messages = [
{"role": "system", "content": "You are a helpful assistant."},
{"role": "user", "content": prompt}
]
text = tokenizer.apply_chat_template(
messages,
tokenize=False,
add_generation_prompt=True
)
model_inputs = tokenizer([text], return_tensors="pt").to(device)
generated_ids = model.generate(
**model_inputs,
max_new_tokens=512
)
generated_ids = [
output_ids[len(input_ids):] for input_ids, output_ids in zip(model_inputs.input_ids, generated_ids)
]
response = tokenizer.batch_decode(generated_ids, skip_special_tokens=True)[0]
此外,你也可以直接使用Firefly对Qwen2.5进行微调,与Qwen1.5和Qwen2的微调方式完全一样。
Firefly项目链接:https://github.com/yangjianxin1/Firefly
首先拉取项目代码库:
git clone https://github.com/yangjianxin1/Firefly.git
执行以下命令,即可使用QLoRA训练Qwen2.5-7B-Instruct模型:
cd Firefly
python train.py --train_args_file train_args/sft/qlora/qwen2.5-7b-sft-qlora.json
结合QLoRA,开启Unsloth训练Qwen2.5-7B,最少仅需8.43GB显存,开启Unsloth后,实测Qwen2.5-7B的训练速度可提升47.32%,训练时间可减少32.12%,显存占用可减少39.13%。可以拍拍手中的1080ti、4090显卡的灰尘,拿来训练Qwen2.5模型了。
04
模型体验
JSON格式遵循,利好开发。
输入:将"通义千问Qwen2.5 YYDS"进行倒序输出,首先输出你的思考过程,最后再输出结果
Qwen2.5理解了藏头诗的含义。
好文章,需要你的鼓励
来自耶路撒冷希伯来大学的研究团队开发了WHISTRESS,一种创新的无需对齐的句子重音检测方法,能够识别说话者在语音中强调的关键词语。研究者基于Whisper模型增加了重音检测组件,并创建了TINYSTRESS-15K合成数据集用于训练。实验表明,WHISTRESS在多个基准测试中表现优异,甚至展示了强大的零样本泛化能力。这项技术使语音识别系统不仅能理解"说了什么",还能捕捉"如何说"的细微差别,为人机交互带来更自然的体验。
这项研究提出了"力量提示"方法,使视频生成模型能够响应物理力控制信号。研究团队来自布朗大学和谷歌DeepMind,他们通过设计两种力提示——局部点力和全局风力,让模型生成符合物理规律的视频。惊人的是,尽管仅使用约15,000个合成训练样本,模型展现出卓越的泛化能力,能够处理不同材质、几何形状和环境下的力学交互。研究还发现模型具有初步的质量理解能力,相同力量对不同质量物体产生不同影响。这一突破为交互式视频生成和直观世界模型提供了新方向。
北京交通大学与西蒙弗雷泽大学联合研发的混合神经-MPM方法实现了实时交互式流体模拟。该方法巧妙结合神经物理学与传统数值求解器,在低时空分辨率下运行神经网络并设置保障机制自动切换到MPM,显著降低计算延迟同时保持高保真度。团队还设计了基于扩散模型的控制器,支持用户通过简单草图直观控制流体行为,为游戏、VR和设计领域提供了实用解决方案。
这项研究介绍了EgoZero,一种创新的机器人学习系统,能够仅通过Project Aria智能眼镜捕获的人类示范数据,训练出零样本迁移的机器人操作策略。研究团队提出了一种形态无关的状态-动作表示方法,使用点集来统一人类和机器人数据,并开发了从原始视觉输入中提取准确3D表示的技术。在没有任何机器人训练数据的情况下,EgoZero在7种真实世界操作任务上实现了70%的成功率,展示了强大的泛化能力,为解决机器人学习中的数据瓶颈问题提供了新思路。