Mistral AI 发布 Devstral——一款能在笔记本上运行的强大新型开源软件工程代理模型

法国 Mistral AI 携手 All Hands AI 推出 Devstral——一款拥有240亿参数的开源语言模型,专为软件工程代理开发设计,能跨文件理解代码、执行多步骤任务,并在 SWE-Bench 测试中表现出色,以 Apache 2.0 许可证开放供开发者与企业灵活使用。

资金充裕的法国 AI 模型制造商 Mistral 自 2023 年秋季推出其强大的开源基础模型以来,一直表现超出预期 —— 但最近在 X 平台上,一些开发者对其上一次发布的专有大语言模型 ( LLM ) Medium 3 提出了批评,认为这背离了其开源根基和承诺。

请记住,开源模型可以被任何人自由获取和改编,而专有模型则需要付费,其定制选项更受限且由模型制造商控制。

然而今天,Mistral 正以全新姿态回归,并大力重申对开源 AI 社区,特别是对以 AI 驱动的软件开发领域的承诺。该公司与开源初创企业 All Hands AI(Open Devin 的创建者)联手发布了 Devstral —— 一款拥有 2400 万参数的全新开源语言模型,其参数规模远小于许多竞争对手的多十亿级模型,从而大幅降低了计算资源要求,使其能够在笔记本电脑上运行,专为代理式 AI 开发而构建。

Building upon Codestral

Devstral 标志着 Mistral 在代码领域模型不断扩展产品线的下一步,此前 Codestral 系列曾取得成功。

Codestral 于 2024 年 5 月首次发布,是 Mistral 初次涉足专用编码大语言模型的尝试。该模型拥有 220 亿参数,经过针对超过 80 种编程语言的训练,并因其在代码生成和补全任务中的表现而备受推崇。

该模型的受欢迎程度和技术优势促成了快速迭代,其后推出了基于 Mamba 架构的增强版本 Codestral-Mamba,最近又发布了 Codestral 25.01,受到了 IDE 插件开发者和企业用户的青睐,他们需要高频率、低延迟的模型。

Codestral 带来的动力帮助 Mistral 确立了在编码模型生态系统中的关键地位,并为 Devstral 的开发奠定了基础 —— 从快速代码补全扩展到全面的代理任务执行。

Outperforms larger models on top SWE benchmarks

Devstral 在 SWE-Bench Verified 基准测试中获得了 46.8% 的分数,该数据集包含 500 个真实 GitHub 问题,并经过手动验证其正确性。

这一成绩使其超越了以往所有发布的开源模型以及多个封闭式模型,包括 GPT-4.1-mini,其优势超过了 20 个百分点。

Mistral AI 的研究科学家 Baptiste Rozière 表示:“目前,它无疑是在 SWE-Bench Verified 和代码代理任务中表现最为优异的开源模型。而且它的模型规模非常小 —— 仅有 240 亿参数 —— 你甚至可以在 MacBook 上本地运行。”

Mistral AI 开发者关系负责人 Sophia Yang 博士在社交网络 X 上写道:“将 Devstral 与任何评估架构下的封闭和开源模型对比,我们发现 Devstral 的性能远超许多封闭式替代方案。例如,其超越了近期发布的 GPT-4.1-mini 的性能超过 20%。”

该模型基于 Mistral Small 3.1,通过强化学习和安全对齐技术进行了微调。

Rozière 说:“我们从 Mistral 的 small tree control 这个已经表现出色的基础模型开始,然后采用安全性和强化学习技术进行专项化调优,以提升其在 SWE-Bench 上的表现。”

Built for the agentic era

Devstral 不仅仅是一款代码生成模型 —— 它还经过优化,可集成到 OpenHands、SWE-Agent 和 OpenDevin 等代理式框架中。

这些支撑系统使 Devstral 能够与测试用例交互、浏览源文件,并在多个项目中执行多步骤任务。

Rozière 表示:“我们与 OpenDevin 共同发布该模型,它作为代码代理的支撑系统。我们负责构建模型,而对方构建支撑系统 —— 一套模型可以使用的提示和工具,类似于开发者模型的后端。”

为了确保模型的稳健性,开发团队在多种仓库和内部工作流中对其进行了测试。

Rozière 解释道:“我们非常谨慎地避免对 SWE-Bench 数据集过拟合。我们仅使用未从 SWE-Bench 集合克隆的仓库数据进行训练,并在不同的框架下对该模型进行了验证。”

他还补充说,Mistral 已经在内部推广使用 Devstral,以确保其在面对全新且未曾见过的任务时具有良好的泛化能力。

Efficient deployment with permissive open license — even for enterprise and commercial projects

Devstral 采用紧凑的 24B 架构,使得开发者可以在本地运行,无论是使用单块 RTX 4090 GPU 还是配置 32GB 内存的 Mac。这使得它在隐私敏感的场景和边缘部署中颇具吸引力。

Rozière 表示:“这款模型面向对本地和隐私运行有需求的爱好者,即使在没有互联网的飞机上也能使用。”

除了性能和便携性之外,其 Apache 2.0 许可证为商业应用提供了极具吸引力的方案。该许可证允许无限制的使用、改编和分发 —— 即使用于专有产品,这也使得 Devstral 成为企业采用时的低摩擦选项。

详细的规格和使用说明可在 Hugging Face 上的 Devstral-Small-2505 模型卡中查阅。

该模型具有 128,000 Token 的上下文窗口,并使用具有 131,000 词汇量的 Tekken Tokenizer。

它支持通过包括 Hugging Face、Ollama、Kaggle、LM Studio 和 Unsloth 在内的所有主要开源平台进行部署,并能良好地与 vLLM、Transformers 和 Mistral Inference 等库协同工作。

Available via API or locally

通过 Mistral 的 Le Platforme API (应用程序编程接口),以模型名称 devstral-small-2505 可访问 Devstral,其定价为每百万输入 Token 0.10 美元,每百万输出 Token 0.30 美元。

对于本地部署的用户,诸如 OpenHands 等框架的支持可以让其无需额外工作便能与代码库及代理式工作流集成。

Rozière 分享了他在开发流程中如何使用 Devstral 的经验:“我自己也在用。你可以让它执行一些小任务,比如更新包的版本或者修改一个分词脚本。它能够在你的代码中找到正确的位置并进行修改。使用起来真的很好。”

More to come

尽管 Devstral 目前以研究预览版的形式发布,Mistral 与 All Hands AI 已经在开发具备更多功能的大型后续模型。Rozière 指出:“小型模型和大型模型之间总会存在差距,但我们已经在缩小这一差距上迈出了很大一步。即便与一些大型竞争对手相比,这些模型的表现已经非常强劲。”

凭借其性能基准、宽松许可证以及代理式设计,Devstral 不仅定位为一款代码生成工具,更成为构建自主软件工程系统的基础模型。

来源:VentureBeat

0赞

好文章,需要你的鼓励

2025

05/22

17:37

分享

点赞

邮件订阅