新开源AI编程模型逼近专有解决方案

法国AI初创公司Mistral AI发布了Devstral 2，这是一个拥有1230亿参数的开放权重编程模型，在SWE-bench Verified基准测试中获得72.2%的分数。该公司还推出了名为Mistral Vibe的开发应用，这是一个命令行接口工具，能够扫描文件结构、维护项目上下文并自主执行shell命令。同时发布的还有240亿参数的Devstral Small 2，可在消费级硬件上本地运行。

周二，法国AI创业公司Mistral AI发布了Devstral 2，这是一个1230亿参数的开源权重编程模型，旨在作为自主软件工程智能体的一部分。该模型在SWE-bench Verified基准测试中取得72.2%的得分，该基准旨在测试AI系统是否能解决真实的GitHub问题，使其跻身顶级开源权重模型之列。

更值得注意的是，Mistral不仅发布了AI模型，还推出了名为Mistral Vibe的新开发应用。这是一个命令行界面，类似于Claude Code、OpenAI Codex和Gemini CLI，让开发者可以在终端中直接与Devstral模型交互。该工具可以扫描文件结构和Git状态以维护整个项目的上下文，跨多个文件进行修改，并自主执行shell命令。Mistral在Apache 2.0许可证下发布了这个CLI工具。

对AI基准测试保持谨慎态度总是明智的，但我们从大型AI公司的员工那里听说，他们非常关注模型在SWE-bench Verified上的表现。该基准向AI模型提供从热门Python仓库的GitHub问题中提取的500个真实软件工程问题。AI必须阅读问题描述，导航代码库，并生成通过单元测试的可工作补丁。虽然一些AI研究人员注意到，基准测试中约90%的任务是相对简单的错误修复，有经验的工程师在一小时内就能完成，但这是比较编程模型的少数标准化方法之一。

与大型AI编程模型同时，Mistral还发布了Devstral Small 2，这是一个240亿参数的版本，在同一基准测试中得分68%，可以在消费者硬件（如笔记本电脑）上本地运行，无需互联网连接。两个模型都支持256,000个Token的上下文窗口，使它们能够处理中等规模的代码库（尽管你认为它是大还是小很大程度上取决于整体项目复杂性）。公司在修改的MIT许可证下发布Devstral 2，在更宽松的Apache 2.0许可证下发布Devstral Small 2。

Devstral 2目前通过Mistral的API免费使用。免费期结束后，定价为每百万输入Token 0.40美元，每百万输出Token 2.00美元。Devstral Small 2的费用为每百万输入Token 0.10美元，每百万输出Token 0.30美元。Mistral表示，在实际任务中它比Claude Sonnet"成本效率高7倍"。Anthropic的Sonnet 4.5通过API的费用为每百万输入Token 3美元，每百万输出Token 15美元，根据使用的总Token数量还会有所增加。

氛围编程的连接

"Mistral Vibe"这个名字引用了"氛围编程"，这是AI研究员Andrej Karpathy在2025年2月创造的一个术语，用来描述一种编程风格：开发者用自然语言描述他们想要的东西，并接受AI生成的代码而不仔细审查。正如Karpathy所描述的，你可以"完全沉浸在氛围中，拥抱指数级增长，忘记代码的存在"。柯林斯词典将其命名为2025年年度词汇。

氛围编程方法既引起了热情也引起了担忧。在3月接受Ars Technica采访时，开发者Simon Willison说："我真的很享受氛围编程。这是尝试想法并证明其可行性的有趣方式。"但他也警告说："用氛围编程的方式构建生产代码库显然是有风险的。我们作为软件工程师所做的大部分工作涉及演进现有系统，其中底层代码的质量和可理解性至关重要。"

Mistral押注Devstral 2将能够在整个项目中保持一致性，检测故障，并通过纠正重试，这些声称的能力将使其适用于比简单原型和内部工具更严肃的工作。公司表示该模型可以跟踪框架依赖关系，并处理错误修复和在仓库规模上现代化遗留系统等任务。我们还没有进行实验，但您可能很快会看到Ars Technica对几种AI编程工具的正面比较测试。

Q&A

Q1：Devstral 2有什么特殊功能？

A：Devstral 2是Mistral AI发布的1230亿参数开源编程模型，可以作为自主软件工程智能体使用。它在SWE-bench Verified基准测试中得分72.2%，支持256,000个Token的上下文窗口，能够处理整个项目的代码库，进行错误修复和系统现代化。

Q2：什么是氛围编程？有什么风险？

A：氛围编程是AI研究员Andrej Karpathy提出的编程方式，开发者用自然语言描述需求，直接接受AI生成的代码而不仔细审查。虽然适合快速原型开发，但用于生产环境存在风险，因为代码质量和可理解性对现有系统演进至关重要。

Q3：Devstral 2的定价如何？

A：Devstral 2目前通过Mistral API免费使用。免费期后，定价为每百万输入Token 0.40美元，输出Token 2.00美元。小版本Devstral Small 2为输入Token 0.10美元，输出Token 0.30美元，比Claude Sonnet成本效率高7倍。

来源：Arstechnica

0赞

好文章，需要你的鼓励

新开源AI编程模型逼近专有解决方案

来源：Arstechnica

2025

12/11

08:03

分享

点赞

Uber年度遗失物报告揭示：数千件物品遗留在无人驾驶出租车中

Uber今年将部署500辆数据采集车辆，助力自动驾驶发展

Uber、Wayve与Waymo的伦敦无人驾驶出租车大战即将开启

Mobileye计划2027年在美国推出自动驾驶出租车服务

Waymo召回近4000辆无人出租车，原因是其进入高速公路施工区域

特斯拉在奥斯汀开始测试无方向盘无踏板Cybercab量产版

图灵奖得主Patterson：摩尔定律的真相，CPU、GPU、TPU的诞生与分工

Omdia报告：Dell PowerProtect助力企业三年期网络弹性TCO最高降低61%

“驯服”千亿模型，鏖战“黑猴打瓦”，龙虾“一键接管” ，锐龙AI Max+ 395开启全能桌面AI主机“王炸”时刻

豪声电子泰国电声工厂初步投产：2500万泰铢项目进入产能爬坡

地瓜机器人将560TOPS端侧算力，加载到了20+头部团队机器人中

WAIC 2026主论坛（下午场）重磅揭晓！

夸克AI眼镜二手溢价飙到5000元，订单排期延至45天后

Empromptu获200万美元融资，助力企业构建AI应用

Linux基金会宣布成立智能体AI基金会，Anthropic、OpenAI、Block加入

FDA批准首个AI工具用于MASH临床试验

Relation与诺华达成过敏性疾病靶点发现合作

利雅得航空与IBM合作打造全球首家AI原生航空公司

管理AI智能体员工队伍所需的8项核心技能

美国AI芯片出口管制对数据中心运营商带来新挑战

AI智能体敲门时，如何安全应答

Linux基金会成立智能体AI基金会统一管理行业标准

如果您非常迫切的想了解IT领域最新产品与技术信息，那么订阅至顶网技术邮件将是您的最佳途径之一

三一集团：数字化是必选项，AI是生存项

因湃电池 × 达索系统：如何共创出一套电池产业最佳实践

AI走进真实世界之后：安全、健康与产业的新命题

CES 2026

关注官方公众号

关注官方微博

关注官方喜马拉雅

友情链接

业界热点: