中国电商巨头阿里巴巴的"通义千问团队"再次取得突破。
就在几天前,该团队免费发布了开源许可的Qwen3-235B-A22B-2507模型,成为世界上表现最佳的非推理大语言模型——即使与谷歌和OpenAI等资金雄厚的美国实验室的专有AI模型相比也是如此。现在,这个AI研究团队又推出了另一个重磅模型。
这就是Qwen3-Coder-480B-A35B-Instruct,一个专注于协助软件开发的新开源大语言模型。该模型设计用于处理复杂的多步骤编程工作流程,能够在数秒或数分钟内创建功能完整的应用程序。
该模型被定位为与Claude Sonnet-4等专有产品在智能体编程任务中竞争,并在开源模型中创下新的基准分数。
该模型现已在Hugging Face、GitHub、通义千问聊天平台、阿里巴巴通义千问API以及越来越多的第三方编程和AI工具平台上可用。
开源许可意味着企业的低成本和高选择性
但与Claude和其他专有模型不同,我们简称为Qwen3-Coder的这个模型现在以Apache 2.0开源许可证提供,这意味着任何企业都可以免费获取、下载、修改、部署并在其商业应用中为员工或最终客户使用,无需向阿里巴巴或任何其他方支付费用。
该模型在第三方基准测试中表现优异,在AI高级用户中进行"感知编程"(使用自然语言编程,无需正式的开发流程和步骤)的使用体验也很好。至少有一位大语言模型研究员Sebastian Raschka在X上写道:"这可能是迄今为止最好的编程模型。通用性很棒,但如果你想要最好的编程能力,专业化胜出。没有免费的午餐。"
有兴趣下载的开发者和企业可以在AI代码共享仓库Hugging Face上找到代码。
不希望或没有能力自己托管模型或通过各种第三方云推理提供商托管的企业,也可以通过阿里云通义千问API直接使用,每百万Token的成本起价为:32,000个Token内输入/输出1美元/5美元,128,000个Token内1.8美元/9美元,256,000个Token内3美元/15美元,完整百万Token为6美元/60美元。
模型架构和能力
根据通义千问团队在线发布的文档,Qwen3-Coder是一个专家混合(MoE)模型,总参数4800亿,每次查询激活350亿参数,在160个专家中激活8个。
该模型原生支持256K Token上下文长度,使用YaRN技术(又一个RoPE外推技术——通过修改注意力计算中使用的旋转位置嵌入(RoPE),将语言模型的上下文长度扩展到原始训练限制之外的技术)可外推至100万Token。这种能力使模型能够在单次处理中理解和操作整个代码仓库或冗长文档。
作为因果语言模型设计,它具有62层、96个查询注意力头和8个键值对注意力头。它针对Token高效的指令跟随任务进行了优化,默认省略了对块的支持,精简了输出。
**高性能表现**
Qwen3-Coder在几个智能体评估套件中在开源模型中取得了领先性能:
SWE-bench Verified:67.0%(标准),69.6%(500轮) GPT-4.1:54.6% Gemini 2.5 Pro Preview:49.0% Claude Sonnet-4:70.4%
该模型在智能体浏览器使用、多语言编程和工具使用等任务中也表现出色。视觉基准显示在代码生成、SQL编程、代码编辑和指令跟随等类别中,各训练迭代都有渐进式改进。
工具和集成选项
除了模型本身,通义千问还开源了Qwen Code,这是一个从Gemini Code分叉的CLI工具。该界面支持函数调用和结构化提示,使Qwen3-Coder更容易集成到编程工作流程中。Qwen Code支持Node.js环境,可通过npm或源码安装。
Qwen3-Coder还与以下开发者平台集成: - Claude Code(通过DashScope代理或路由器定制) - Cline(作为OpenAI兼容后端) - Ollama、LMStudio、MLX-LM、llama.cpp和KTransformers
开发者可以本地运行Qwen3-Coder,或通过阿里云托管的端点使用OpenAI兼容API连接。
**后训练技术:代码强化学习和长期规划**
除了在7.5万亿Token(70%为代码)上进行预训练外,Qwen3-Coder还受益于先进的后训练技术:
代码强化学习:强调在多样化、可验证的代码任务上进行高质量、执行驱动的学习 长期智能体强化学习:训练模型在多轮交互中进行规划、使用工具和适应
这个阶段模拟真实世界的软件工程挑战。为实现这一点,通义千问在阿里云上构建了20,000个环境的系统,提供在SWE-bench等复杂工作流程上评估和训练模型所需的规模。
企业意义:工程和DevOps工作流程的AI
对于企业而言,Qwen3-Coder提供了封闭源码专有模型的开放、高能力替代方案。凭借在编程执行和长上下文推理方面的强劲表现,它特别适用于:
代码库级理解: 适用于必须理解大型仓库、技术文档或架构模式的AI系统
自动化拉取请求工作流程: 其跨轮次规划和适应的能力使其适合自动生成或审查拉取请求
工具集成和编排: 通过其原生工具调用API和函数接口,该模型可以嵌入到内部工具和CI/CD系统中。这使其特别适用于智能体工作流程和产品,即用户触发一个或多个任务,希望AI模型自主完成,只在完成时或出现问题时报告。
数据驻留和成本控制: 作为开源模型,企业可以在自己的基础设施上部署Qwen3-Coder——无论是云原生还是本地部署——避免供应商锁定并更直接地管理计算使用
对长上下文的支持和跨各种开发环境的模块化部署选项,使Qwen3-Coder成为大型科技公司和小型工程团队生产级AI管道的候选方案。
**开发者访问和最佳实践**
为了最佳使用Qwen3-Coder,通义千问建议: - 采样设置:temperature=0.7,top_p=0.8,top_k=20,repetition_penalty=1.05 - 输出长度:最多65,536个Token - Transformers版本:4.51.0或更高版本(旧版本可能因qwen3_moe不兼容而出错)
使用OpenAI兼容的Python客户端提供API和SDK示例。开发者可以定义自定义工具,让Qwen3-Coder在对话或代码生成任务中动态调用它们。
AI高级用户的积极反响
在现实编程工作流程中测试该模型的AI研究员、工程师和开发者对Qwen3-Coder-480B-A35B-Instruct的初步反应非常积极。
除了Raschka上述的高度赞扬外,EllamindAI的AI工程师和评估师Wolfram Ravenwolf在X上分享了他将该模型与Claude Code集成的经验,表示"这肯定是目前最好的一个。"
在测试了几个集成代理后,Ravenwolf说他最终使用LiteLLM构建了自己的代理以确保最佳性能,这证明了该模型对专注于工具链定制的实践型从业者的吸引力。
教育者和AI技术爱好者Kevin Nelson在使用该模型进行仿真任务后也在X上发表了看法。
"Qwen 3 Coder处于另一个层次,"他发帖说,注意到该模型不仅在提供的脚手架上执行,甚至在仿真输出中嵌入了一条消息——这是模型对任务上下文意识的意外但受欢迎的表现。
甚至Twitter联合创始人和Square(现在称为"Block")创始人Jack Dorsey也发布了一条X消息赞扬该模型,写道:"Goose + qwen3-coder = 哇",指的是他的Block公司的开源AI智能体框架Goose,VentureBeat在2025年1月曾报道过。
这些反应表明Qwen3-Coder在寻求性能、适应性和与现有开发堆栈更深入集成的技术娴熟用户群体中引起了共鸣。
展望未来:更多规模,更多用例
虽然这次发布专注于最强大的变体Qwen3-Coder-480B-A35B-Instruct,但通义千问团队表示正在开发其他模型规模。
这些模型将旨在以更低的部署成本提供类似功能,扩大可访问性。
未来工作还包括探索自我改进,团队正在研究智能体模型是否可以通过实际使用迭代优化自己的性能。
好文章,需要你的鼓励
OpenAI明确表示要成为互联网一切事物的主导界面。AI智能体正在改变用户的数字习惯,从健康记录分析到购物指导,ChatGPT已经在多个领域扩展影响力。用户快速采用AI工具,但企业和生态系统的适应速度滞后。电商领域的权力分配尚不明确,用户偏好AI驱动的答案优先体验,品牌则推动生成式引擎优化。研究旨在了解用户与企业在AI变革中的适应差异。
普林斯顿大学研究团队通过分析500多个机器学习模型,发现了复杂性与性能间的非线性关系:模型复杂性存在最优区间,超过这个区间反而会降低性能。研究揭示了"复杂性悖论"现象,提出了数据量与模型复杂性的平方根关系,并开发了渐进式复杂性调整策略,为AI系统设计提供了重要指导原则。
微软亚洲研究院开发出革命性的认知启发学习框架,让AI能够像人类一样思考和学习。该技术通过模仿人类的注意力分配、记忆整合和类比推理等认知机制,使AI在面对新情况时能快速适应,无需大量数据重新训练。实验显示这种AI在图像识别、语言理解和决策制定方面表现卓越,为教育、医疗、商业等领域的智能化应用开辟了新前景。