Qwen 团队是中国电商巨头阿里巴巴的一个部门,专注于开发其不断扩展的开源 Qwen 大语言模型(LLM)系列。该团队推出了 QwQ-32B,这是一种新的 320 亿参数推理模型,旨在通过强化学习(RL)提高复杂问题解决任务的性能。
该模型作为开源权重在 Hugging Face 和 ModelScope 上提供,采用 Apache 2.0 许可证。这意味着它可用于商业和研究用途,因此企业可以立即将其用于支持其产品和应用程序(即使是那些向客户收费使用的应用程序)。
个人用户也可以通过 Qwen Chat 访问该模型。
Qwen-with-Questions 是阿里巴巴对 OpenAI 原始推理模型 o1 的回应
QwQ,全称为 Qwen-with-Questions,最初由阿里巴巴于 2024 年 11 月推出,作为一个开源推理模型,旨在与 OpenAI 的 o1-preview 竞争。
在发布时,该模型旨在通过在推理过程中审查和改进自身的响应来增强逻辑推理和规划,这种技术使其在数学和编码任务中特别有效。
QwQ 的初始版本具有 320 亿个参数和 32,000 个 Token 的上下文长度,阿里巴巴强调其在 AIME 和 MATH 等数学基准测试以及 GPQA 等科学推理任务中优于 o1-preview。
尽管有其优势,QwQ 的早期版本在 LiveCodeBench 等编程基准测试中表现不佳,而 OpenAI 的模型在这些测试中保持了优势。此外,与许多新兴推理模型一样,QwQ 面临语言混合和偶尔的循环推理等挑战。
然而,阿里巴巴决定以 Apache 2.0 许可证发布该模型,确保开发者和企业可以自由地调整和商业化使用它,这使其与 OpenAI 的 o1 等专有替代品区分开来。
自 QwQ 初次发布以来,AI 领域迅速发展。传统大语言模型的局限性变得更加明显,扩展定律在性能提升方面的收益递减。
这种转变激发了人们对大型推理模型(LRM)的兴趣——这是一类新的 AI 系统,通过推理时推理和自我反思来提高准确性。这些包括 OpenAI 的 o3 系列和来自竞争对手中国实验室 DeepSeek 的非常成功的 DeepSeek-R1,该实验室是香港量化分析公司 High-Flyer Capital Management 的一个分支。
根据网络流量分析和研究公司 SimilarWeb 的一份新报告,自 2024 年 1 月 R1 推出以来,DeepSeek 已迅速攀升至成为仅次于 OpenAI 的访问量最大的 AI 模型提供网站。
QwQ-32B 是阿里巴巴的最新版本,通过整合 RL 和结构化自我质疑,成为推理聚焦 AI 领域的一个强有力竞争者。
通过多阶段强化学习提升性能
传统的指令调优模型通常在困难的推理任务中表现不佳,但 Qwen 团队的研究表明,RL 可以显著提高模型解决复杂问题的能力。
QwQ-32B 基于这一理念,通过实施多阶段 RL 训练方法来增强数学推理、编码能力和一般问题解决能力。
该模型已与 DeepSeek-R1、o1-mini 和 DeepSeek-R1-Distilled-Qwen-32B 等领先替代品进行了基准测试,尽管参数数量较少,但表现出竞争力。
例如,虽然 DeepSeek-R1 具有 6710 亿个参数(激活 370 亿个),但 QwQ-32B 以更小的规模实现了可比的性能——通常需要 24 GB 的 vRAM 在 GPU(Nvidia 的 H100s 具有 80GB)上运行,而运行完整的 DeepSeek R1(16 个 Nvidia A100 GPU)则需要超过 1500 GB 的 vRAM——这突显了 Qwen 的 RL 方法的效率。
QwQ-32B 遵循因果语言模型架构,并包括多项优化:
64 个 Transformer 层,配备 RoPE、SwiGLU、RMSNorm 和 Attention QKV 偏置;
具有 40 个查询注意力头和 8 个键值对的广义查询注意力(GQA);
扩展的 131,072 个 Token 上下文长度,允许更好地处理长序列输入;
包括预训练、监督微调和 RL 的多阶段训练。
QwQ-32B 的 RL 过程分为两个阶段执行:
数学和编码重点:
该模型使用数学推理的准确性验证器和编码任务的代码执行服务器进行训练。这种方法确保生成的答案在被强化之前经过正确性验证。
一般能力增强:
在第二阶段,模型通过一般奖励模型和基于规则的验证器进行奖励训练。此阶段提高了指令遵循、人类对齐和代理推理能力,而不影响其数学和编码能力。
对企业决策者的意义
对于企业领导者——包括 CEO、CTO、IT 领导者、团队经理和 AI 应用程序开发人员——QwQ-32B 代表了 AI 如何支持业务决策和技术创新的潜在转变。
凭借其 RL 驱动的推理能力,该模型可以提供更准确、结构化和上下文感知的见解,使其在自动化数据分析、战略规划、软件开发和智能自动化等用例中具有价值。
希望部署 AI 解决方案以解决复杂问题、提供编码支持、进行财务建模或客户服务自动化的公司可能会发现 QwQ-32B 的效率具有吸引力。此外,其开源权重可用性允许组织微调和定制模型以适应特定领域的应用程序,而不受专有限制,使其成为企业 AI 策略的灵活选择。
由于该模型来自中国电商巨头,可能会引发一些非中国用户的安全和偏见担忧,尤其是在使用 Qwen Chat 界面时。但与 DeepSeek-R1 一样,该模型可在 Hugging Face 上下载并进行离线使用和微调或重新训练,这表明这些问题可以相对容易地克服。它是 DeepSeek-R1 的一个可行替代方案。
AI 高级用户和影响者的早期反应
QwQ-32B 的发布已经引起了 AI 研究和开发社区的关注,几位开发者和行业专业人士在 X(前身为 Twitter)上分享了他们的初步印象:
Hugging Face 的 Vaibhav Srivastav(@reach_vb)强调了 QwQ-32B 的推理速度,感谢提供商 Hyperbolic Labs,称其为“快如闪电”,并与顶级模型相媲美。他还指出,该模型“击败了 DeepSeek-R1 和 OpenAI o1-mini,并采用 Apache 2.0 许可证。”
AI 新闻和传闻发布者 Chubby(@kimmonismus)对该模型的性能印象深刻,强调 QwQ-32B 有时优于 DeepSeek-R1,尽管其规模小了 20 倍。“天哪!Qwen 太棒了!”他们写道。
Hyperbolic Labs 的联合创始人兼 CTO Yuchen Jin(@Yuchenj_UW)庆祝该模型的发布,指出了效率提升。“小模型如此强大!阿里巴巴 Qwen 发布了 QwQ-32B,这是一种推理模型,击败了 DeepSeek-R1(671B)和 OpenAI o1-mini!”
另一位 Hugging Face 团队成员 Erik Kaunismaki(@ErikKaum)强调了部署的简便性,分享说该模型可以在 Hugging Face 端点上进行一键部署,使开发者无需进行广泛设置即可访问。
代理能力
QwQ-32B 具备代理能力,允许其根据环境反馈动态调整推理过程。
为了获得最佳性能,Qwen 团队建议使用以下推理设置:
温度:0.6
TopP:0.95
TopK:20-40 之间
YaRN 缩放:建议用于处理超过 32,768 个 Token 的序列
该模型支持使用 vLLM 进行部署,这是一种高吞吐量推理框架。然而,vLLM 的当前实现仅支持静态 YaRN 缩放,无论输入长度如何,保持固定的缩放因子。
未来发展
Qwen 团队将 QwQ-32B 视为将 RL 扩展以增强推理能力的第一步。展望未来,团队计划:
进一步探索扩展 RL 以提高模型智能;
将代理与 RL 集成以实现长时推理;
继续开发针对 RL 优化的基础模型;
通过更先进的训练技术迈向人工通用智能(AGI)。
通过 QwQ-32B,Qwen 团队将 RL 定位为下一代 AI 模型的关键驱动力,展示了扩展可以产生高性能和有效的推理系统。
好文章,需要你的鼓励
当前,AI模型的推出速度令人眼花缭乱,从谷歌等大型科技公司到OpenAI和Anthropic等初创企业都在不断推出新模型。跟踪最新的AI模型可能会让人感到不知所措。AI模型通常根据行业基准进行宣传,但这些技术指标往往无法真实反映人们和公司如何实际使用它们。为了帮助读者理清思路,TechCrunch汇总了自2024年以来发布的最先进的AI模型概述,包括如何使用它们及其最佳应用场景。我们也会持续更新这个列表,添加最新的发布信息。
Faireez旨在为多户住宅提供“五星级酒店式家政服务”,该初创公司刚刚获得750万美元的种子资金。成立于2023年的Faireez总部位于纽约,目标是提供尽可能个性化的清洁服务。用户可以通过网站或应用程序预约清洁,按实际任务而非小时计费。Faireez还计划在未来几个月推出机器人助手,帮助家政人员完成基本家务。
尽管各界广泛讨论 IT 行业女性人才短缺问题,但科技领域的女性比例仍然偏低。根据数据显示,美国 STEM 领域女性员工占比仅为35%,在五大科技巨头中这一比例更低至31%。女性在各级职位中的占比也呈下降趋势,从入门级的48%逐步下降到高管层的29%。为改变这一状况,许多致力于赋能和支持科技女性的组织应运而生。本文将介绍20个重要的女性科技组织,它们致力于提升女性地位、倡导职场包容性,并缩小多元化差距。