Alibaba 新开源模型 QwQ-32B:以更小算力匹敌 DeepSeek-R1

阿里巴巴旗下的 Qwen 团队推出了 QwQ-32B,这是一款拥有 320 亿参数的推理模型,旨在通过强化学习提升复杂问题解决任务的表现。该模型在 Hugging Face 和 ModelScope 上以开源权重形式发布,适用于商业和研究用途,企业可以立即将其应用于产品和应用程序中。

Qwen 团队是中国电商巨头阿里巴巴的一个部门,专注于开发其不断扩展的开源 Qwen 大语言模型(LLM)系列。该团队推出了 QwQ-32B,这是一种新的 320 亿参数推理模型,旨在通过强化学习(RL)提高复杂问题解决任务的性能。

该模型作为开源权重在 Hugging Face 和 ModelScope 上提供,采用 Apache 2.0 许可证。这意味着它可用于商业和研究用途,因此企业可以立即将其用于支持其产品和应用程序(即使是那些向客户收费使用的应用程序)。

个人用户也可以通过 Qwen Chat 访问该模型。

Qwen-with-Questions 是阿里巴巴对 OpenAI 原始推理模型 o1 的回应

QwQ,全称为 Qwen-with-Questions,最初由阿里巴巴于 2024 年 11 月推出,作为一个开源推理模型,旨在与 OpenAI 的 o1-preview 竞争。

在发布时,该模型旨在通过在推理过程中审查和改进自身的响应来增强逻辑推理和规划,这种技术使其在数学和编码任务中特别有效。

QwQ 的初始版本具有 320 亿个参数和 32,000 个 Token 的上下文长度,阿里巴巴强调其在 AIME 和 MATH 等数学基准测试以及 GPQA 等科学推理任务中优于 o1-preview。

尽管有其优势,QwQ 的早期版本在 LiveCodeBench 等编程基准测试中表现不佳,而 OpenAI 的模型在这些测试中保持了优势。此外,与许多新兴推理模型一样,QwQ 面临语言混合和偶尔的循环推理等挑战。

然而,阿里巴巴决定以 Apache 2.0 许可证发布该模型,确保开发者和企业可以自由地调整和商业化使用它,这使其与 OpenAI 的 o1 等专有替代品区分开来。

自 QwQ 初次发布以来,AI 领域迅速发展。传统大语言模型的局限性变得更加明显,扩展定律在性能提升方面的收益递减。

这种转变激发了人们对大型推理模型(LRM)的兴趣——这是一类新的 AI 系统,通过推理时推理和自我反思来提高准确性。这些包括 OpenAI 的 o3 系列和来自竞争对手中国实验室 DeepSeek 的非常成功的 DeepSeek-R1,该实验室是香港量化分析公司 High-Flyer Capital Management 的一个分支。

根据网络流量分析和研究公司 SimilarWeb 的一份新报告,自 2024 年 1 月 R1 推出以来,DeepSeek 已迅速攀升至成为仅次于 OpenAI 的访问量最大的 AI 模型提供网站。

QwQ-32B 是阿里巴巴的最新版本,通过整合 RL 和结构化自我质疑,成为推理聚焦 AI 领域的一个强有力竞争者。

通过多阶段强化学习提升性能

传统的指令调优模型通常在困难的推理任务中表现不佳,但 Qwen 团队的研究表明,RL 可以显著提高模型解决复杂问题的能力。

QwQ-32B 基于这一理念,通过实施多阶段 RL 训练方法来增强数学推理、编码能力和一般问题解决能力。

该模型已与 DeepSeek-R1、o1-mini 和 DeepSeek-R1-Distilled-Qwen-32B 等领先替代品进行了基准测试,尽管参数数量较少,但表现出竞争力。

例如,虽然 DeepSeek-R1 具有 6710 亿个参数(激活 370 亿个),但 QwQ-32B 以更小的规模实现了可比的性能——通常需要 24 GB 的 vRAM 在 GPU(Nvidia 的 H100s 具有 80GB)上运行,而运行完整的 DeepSeek R1(16 个 Nvidia A100 GPU)则需要超过 1500 GB 的 vRAM——这突显了 Qwen 的 RL 方法的效率。

QwQ-32B 遵循因果语言模型架构,并包括多项优化:

64 个 Transformer 层,配备 RoPE、SwiGLU、RMSNorm 和 Attention QKV 偏置;

具有 40 个查询注意力头和 8 个键值对的广义查询注意力(GQA);

扩展的 131,072 个 Token 上下文长度,允许更好地处理长序列输入;

包括预训练、监督微调和 RL 的多阶段训练。

QwQ-32B 的 RL 过程分为两个阶段执行:

数学和编码重点:

该模型使用数学推理的准确性验证器和编码任务的代码执行服务器进行训练。这种方法确保生成的答案在被强化之前经过正确性验证。

一般能力增强:

在第二阶段,模型通过一般奖励模型和基于规则的验证器进行奖励训练。此阶段提高了指令遵循、人类对齐和代理推理能力,而不影响其数学和编码能力。

对企业决策者的意义

对于企业领导者——包括 CEO、CTO、IT 领导者、团队经理和 AI 应用程序开发人员——QwQ-32B 代表了 AI 如何支持业务决策和技术创新的潜在转变。

凭借其 RL 驱动的推理能力,该模型可以提供更准确、结构化和上下文感知的见解,使其在自动化数据分析、战略规划、软件开发和智能自动化等用例中具有价值。

希望部署 AI 解决方案以解决复杂问题、提供编码支持、进行财务建模或客户服务自动化的公司可能会发现 QwQ-32B 的效率具有吸引力。此外,其开源权重可用性允许组织微调和定制模型以适应特定领域的应用程序,而不受专有限制,使其成为企业 AI 策略的灵活选择。

由于该模型来自中国电商巨头,可能会引发一些非中国用户的安全和偏见担忧,尤其是在使用 Qwen Chat 界面时。但与 DeepSeek-R1 一样,该模型可在 Hugging Face 上下载并进行离线使用和微调或重新训练,这表明这些问题可以相对容易地克服。它是 DeepSeek-R1 的一个可行替代方案。

AI 高级用户和影响者的早期反应

QwQ-32B 的发布已经引起了 AI 研究和开发社区的关注,几位开发者和行业专业人士在 X(前身为 Twitter)上分享了他们的初步印象:

Hugging Face 的 Vaibhav Srivastav(@reach_vb)强调了 QwQ-32B 的推理速度,感谢提供商 Hyperbolic Labs,称其为“快如闪电”,并与顶级模型相媲美。他还指出,该模型“击败了 DeepSeek-R1 和 OpenAI o1-mini,并采用 Apache 2.0 许可证。”

AI 新闻和传闻发布者 Chubby(@kimmonismus)对该模型的性能印象深刻,强调 QwQ-32B 有时优于 DeepSeek-R1,尽管其规模小了 20 倍。“天哪!Qwen 太棒了!”他们写道。

Hyperbolic Labs 的联合创始人兼 CTO Yuchen Jin(@Yuchenj_UW)庆祝该模型的发布,指出了效率提升。“小模型如此强大!阿里巴巴 Qwen 发布了 QwQ-32B,这是一种推理模型,击败了 DeepSeek-R1(671B)和 OpenAI o1-mini!”

另一位 Hugging Face 团队成员 Erik Kaunismaki(@ErikKaum)强调了部署的简便性,分享说该模型可以在 Hugging Face 端点上进行一键部署,使开发者无需进行广泛设置即可访问。

代理能力

QwQ-32B 具备代理能力,允许其根据环境反馈动态调整推理过程。

为了获得最佳性能,Qwen 团队建议使用以下推理设置:

温度:0.6

TopP:0.95

TopK:20-40 之间

YaRN 缩放:建议用于处理超过 32,768 个 Token 的序列

该模型支持使用 vLLM 进行部署,这是一种高吞吐量推理框架。然而,vLLM 的当前实现仅支持静态 YaRN 缩放,无论输入长度如何,保持固定的缩放因子。

未来发展

Qwen 团队将 QwQ-32B 视为将 RL 扩展以增强推理能力的第一步。展望未来,团队计划:

进一步探索扩展 RL 以提高模型智能;

将代理与 RL 集成以实现长时推理;

继续开发针对 RL 优化的基础模型;

通过更先进的训练技术迈向人工通用智能(AGI)。

通过 QwQ-32B,Qwen 团队将 RL 定位为下一代 AI 模型的关键驱动力,展示了扩展可以产生高性能和有效的推理系统。

来源:VentureBeat

0赞

好文章,需要你的鼓励

2025

03/07

16:00

分享

点赞

邮件订阅