人工智能正在快速发展,改变着开发者编写代码的方式。随着代码越来越快地流入GitHub等代码仓库,机器智能现在与人类开发者并肩工作。
根据艾伦人工智能研究所的观点,编码智能体面临一个根本性问题:大多数都是封闭的,训练成本昂贵,难以研究或适应私有代码库。为了解决这个问题,该公司今日发布了Ai2开放编码智能体系列,让构建和训练定制编码智能体变得简单易用。
SERA智能体的核心能力
该系列的首个发布版本名为SERA(软验证高效仓库智能体),能够解决超过55%的SWE-Bench Verified基准测试问题,这一表现超越了同等规模的先前开源模型。
SERA的每个组件都是开源的,包括模型、代码以及与Anthropic公司Claude Code的集成。它只需一行代码即可启动,用户无需任何大语言模型训练经验。
SERA提供两个版本:SERA-32B和SERA-8B。前者是320亿参数的模型,在SWE-bench Verified基准测试中表现强劲,在标准设置下能解决约55%的问题,超越了大多数开源模型如Qwen3-Coder,以及在相同推理设置下的封闭模型,包括Mistral3的Devstral Small 2。后者是80亿参数的模型,能解决29.4%的SWE-Bench Verified问题,而强化学习基线模型仅为9.4%。
技术突破与成本优势
Ai2使用专门的模型,在每个代码库的8000个合成轨迹上进行训练,始终能够匹配甚至超越作为教师模型的GLM-4.5-Air的性能,后者拥有超过1000亿个参数。
Ai2表示,一个特别有希望的结果是,较小的完全开源模型能够复制甚至超越更强大"教师"编码智能体的性能。通过在320亿参数级别针对特定代码库的有利专业化和微调,SERA能够以三分之一的规模超越一些1000亿参数的通用模型。在部署时,这意味着更小的内存占用和更低的计算需求,从而大大降低成本,而不会牺牲质量。
在商品云硬件上重现Ai2主要实验结果的总成本约为400美元,比目前市场上许多现有方法便宜约100倍。
易用性与未来发展
该公司解释说,此次发布包含开发者和研究人员快速上手所需的一切,以便重现、测试和基于SERA进行构建:基于两行代码的轻量级部署,用于启动、部署和推理。还有设置脚本和推理优化,使SERA能够与Claude Code协同工作。
Ai2表示,打算使用相同的方法来不断改进并扩展到更大的骨干网络,但强调当前的流程已经足够便宜和可行,任何人都可以运行、定制和迭代。
Q&A
Q1:SERA智能体是什么?它有什么特殊能力?
A:SERA(软验证高效仓库智能体)是Ai2发布的开源AI编码智能体,能够解决超过55%的SWE-Bench Verified基准测试问题,超越了同等规模的先前开源模型。它的特殊之处在于完全开源,只需一行代码即可启动,用户无需大语言模型训练经验。
Q2:SERA有哪些版本?性能如何?
A:SERA提供两个版本:SERA-32B(320亿参数)和SERA-8B(80亿参数)。SERA-32B在标准设置下能解决约55%的问题,超越了大多数开源和封闭模型。SERA-8B能解决29.4%的问题,远超强化学习基线模型的9.4%表现。
Q3:使用SERA的成本如何?
A:SERA的成本非常低廉。在商品云硬件上重现主要实验结果的总成本约为400美元,比目前市场上许多现有方法便宜约100倍。由于模型规模优化,部署时内存占用更小,计算需求更低,大大降低了使用成本。
好文章,需要你的鼓励
FORTIS是专门测量AI代理"越权行为"的基准测试,研究发现十款顶尖模型普遍选择远超任务需要的高权限技能,端到端成功率最高仅14.3%。
谷歌在Android Show发布会上宣布,将Gemini更深度整合至Android系统,推出名为"Gemini Intelligence"的升级功能。该功能可跨应用处理日常任务,包括自动填写表单、安排日程、生成购物清单及自定义小组件等,无需用户频繁切换应用。此外,Gboard新增"Rambler"功能,可自动过滤语音输入中的口误和填充词。Gemini Intelligence将率先登陆三星Galaxy和谷歌Pixel手机,并支持Android Auto、Wear OS及智能眼镜。
荷兰Nebius团队提出SlimSpec,通过低秩分解压缩草稿模型LM-Head的内部表示而非裁剪词汇,在保留完整词汇表的同时将LM-Head计算时间压缩至原来的五分之一,端到端推理速度超越现有方法最高达9%。