阿里巴巴最新开源了320亿参数的大语言模型Qwen1.5-32B,这个模型在各项评测结果中都略超此前最强开源大模型Mixtral 8×7B MoE,比720亿参数的Qwen-1.5-72B模型略差。但是一半的参数意味着只有一半的显存,这样的性价比极高。
Qwen1.5-32B简介
Qwen1.5-32B模型的评测结果
Qwen1.5-32B模型的上下文长度
Qwen1.5-32B模型的开源地址和演示地址
Qwen系列大语言模型是阿里巴巴开源的一系列大语言模型,在各项评测和应用中都取得了非常好的效果,也引起了非常多的人的关注。而且Qwen系列模型不仅仅是在国内很有名,在全球的大模型开源领域都有着很好的吸引力。本次开源的320亿参数模型是最新的一个。
Qwen1.5可以理解为Qwen2的beta版本,在此前开源了6个不同参数规模的Qwen1.5模型,最小的只有5亿参数,最大的是720亿参数。其中,Qwen1.5-72B是目前MT-Bench测评中仅次于GPT-4的模型,也是开源模型中得分最高的模型(MT-Bench采用了真实的多轮对话数据集)。而在匿名投票评测中(LMSYS推出的Areno评测系统,该评测为用户提供不同模型的匿名回复,由用户投票谁好谁好),Qwen1.5-72B也是开源模型中最强的。
不过720亿参数的Qwen1.5-72B的半精度模型需要144GB显存才能载入,单个显卡无法使用,因此很多人也无法体验。而此次发布的Qwen1.5-32B模型的参数只有Qwen1.5-72B模型参数的一半,显存也只有它的一半。官方提供的Int4版本模型仅需要20G显存,可以在4090显卡上推理,但实测速度较慢!。所以,消费级显卡在做这种规模参数模型的推理上还是比较差的。
而从评测结果看,Qwen1.5-32B比Qwen1.5-72B性能损失很小,而显存降低了一半,所以非常有性价比。
阿里巴巴官方说,最近几个月,通义千问模型在后训练上取得了进展,即在基于人类反馈的强化学习对齐训练方面有了很好的进步。而这个Qwen1.5-32B模型就是这个进步的成果。而Qwen1.5-32B模型本身和其它1.5版本的Qwen模型架构没有区别,不过多了一个 grouped query attention (GQA),因此,推理的效率应该更高。
官方发布的Qwen1.5-32B包含5个版本:
根据官方的描述,Qwen1.5-32B模型在300亿参数规模的模型中评测中非常靠前。虽然不能说第一,但各项成绩都很优秀。
而根据DataLearnerAI收集的全球主流模型评测结果上,Qwen1.5-32B接近此前发布的DBRX模型( https://www.datalearner.com/ai-models/pretrained-models/DBRX-Instruct ),这是一个1320亿参数的MoE模型(激活时使用360亿参数):
上图是按照MMLU评分从上往下排序的结果。从上图可以看到,Qwen1.5-32B超过了Grok-1,略低于DBRX模型。但是总体上比李开复旗下公司开源的Yi-34B也要略差。详细的数据如下:
尽管综合理解能力MMLU得分,Qwen1.5-32B并不算优秀,但是涉及到推理和数学方面(GSM8K、Math),则比其它300亿参数模型提升明显,只是略低于Qwen1.5-72B模型。
官方提到了它支持32K上下文长度输入,在“大海捞针”测试中表现很好。
Qwen1.5-32B模型本身以通义千问的开源协议开源,允许商用,也有在线测试,具体开源地址和在线测试地址参考DataLearnerAI的Qwen1.5-32B模型信息卡:https://www.datalearner.com/ai-models/pretrained-models/Qwen1_5-32B
好文章,需要你的鼓励
OpenAI 本周为 ChatGPT 添加了 AI 图像生成功能,用户可直接在对话中创建图像。由于使用量激增,CEO Sam Altman 表示公司的 GPU "正在融化",不得不临时限制使用频率。新功能支持工作相关图像创建,如信息图表等,但在图像编辑精确度等方面仍存在限制。值得注意的是,大量用户正在使用该功能创作吉卜力动画风格的图像。
Synopsys 近期推出了一系列基于 AMD 最新芯片的硬件辅助验证和虚拟原型设计工具,包括 HAPS-200 原型系统和 ZeBu-200 仿真系统,以及面向 Arm 硬件的 Virtualizer 原生执行套件。这些创新工具显著提升了芯片设计和软件开发的效率,有助于加快产品上市速度,满足当前 AI 时代下快速迭代的需求。
人工智能正在深刻改变企业客户关系管理 (CRM) 的方方面面。从销售自动化、营销内容生成到客服智能化,AI不仅提升了运营效率,还带来了全新的服务模式。特别是自主代理AI (Agentic AI) 的出现,有望在多渠道无缝接管客户服务职能,开创CRM发展新纪元。
数据孤岛长期困扰着组织,影响着人工智能的可靠性。它们导致信息分散、模型训练不完整、洞察力不一致。解决方案包括实施强大的数据治理、促进跨部门协作、采用现代数据集成技术等。克服数据孤岛对于充分发挥AI潜力至关重要。