人工智能正在快速发展,改变着开发者编写代码的方式。随着代码越来越快地流入GitHub等代码仓库,机器智能现在与人类开发者并肩工作。
根据艾伦人工智能研究所的观点,编码智能体面临一个根本性问题:大多数都是封闭的,训练成本昂贵,难以研究或适应私有代码库。为了解决这个问题,该公司今日发布了Ai2开放编码智能体系列,让构建和训练定制编码智能体变得简单易用。
SERA智能体的核心能力
该系列的首个发布版本名为SERA(软验证高效仓库智能体),能够解决超过55%的SWE-Bench Verified基准测试问题,这一表现超越了同等规模的先前开源模型。
SERA的每个组件都是开源的,包括模型、代码以及与Anthropic公司Claude Code的集成。它只需一行代码即可启动,用户无需任何大语言模型训练经验。
SERA提供两个版本:SERA-32B和SERA-8B。前者是320亿参数的模型,在SWE-bench Verified基准测试中表现强劲,在标准设置下能解决约55%的问题,超越了大多数开源模型如Qwen3-Coder,以及在相同推理设置下的封闭模型,包括Mistral3的Devstral Small 2。后者是80亿参数的模型,能解决29.4%的SWE-Bench Verified问题,而强化学习基线模型仅为9.4%。
技术突破与成本优势
Ai2使用专门的模型,在每个代码库的8000个合成轨迹上进行训练,始终能够匹配甚至超越作为教师模型的GLM-4.5-Air的性能,后者拥有超过1000亿个参数。
Ai2表示,一个特别有希望的结果是,较小的完全开源模型能够复制甚至超越更强大"教师"编码智能体的性能。通过在320亿参数级别针对特定代码库的有利专业化和微调,SERA能够以三分之一的规模超越一些1000亿参数的通用模型。在部署时,这意味着更小的内存占用和更低的计算需求,从而大大降低成本,而不会牺牲质量。
在商品云硬件上重现Ai2主要实验结果的总成本约为400美元,比目前市场上许多现有方法便宜约100倍。
易用性与未来发展
该公司解释说,此次发布包含开发者和研究人员快速上手所需的一切,以便重现、测试和基于SERA进行构建:基于两行代码的轻量级部署,用于启动、部署和推理。还有设置脚本和推理优化,使SERA能够与Claude Code协同工作。
Ai2表示,打算使用相同的方法来不断改进并扩展到更大的骨干网络,但强调当前的流程已经足够便宜和可行,任何人都可以运行、定制和迭代。
Q&A
Q1:SERA智能体是什么?它有什么特殊能力?
A:SERA(软验证高效仓库智能体)是Ai2发布的开源AI编码智能体,能够解决超过55%的SWE-Bench Verified基准测试问题,超越了同等规模的先前开源模型。它的特殊之处在于完全开源,只需一行代码即可启动,用户无需大语言模型训练经验。
Q2:SERA有哪些版本?性能如何?
A:SERA提供两个版本:SERA-32B(320亿参数)和SERA-8B(80亿参数)。SERA-32B在标准设置下能解决约55%的问题,超越了大多数开源和封闭模型。SERA-8B能解决29.4%的问题,远超强化学习基线模型的9.4%表现。
Q3:使用SERA的成本如何?
A:SERA的成本非常低廉。在商品云硬件上重现主要实验结果的总成本约为400美元,比目前市场上许多现有方法便宜约100倍。由于模型规模优化,部署时内存占用更小,计算需求更低,大大降低了使用成本。
好文章,需要你的鼓励
穆拉蒂时隔18个月首次接受重大媒体采访,介绍其创立的Thinking Machines Lab正在开发的"交互模型"。该模型能以200毫秒间隔处理音频、文本和视频流,捕捉人类交流中的中断、修正和停顿。她还谈及OpenAI"政变周"经历,强调行业决策权过于集中的担忧,并回应了公司近期研究人员离职问题,表示这是初创实验室的正常波动。
STATE16研究院这篇综述发现,物理AI系统存在"静默失效"风险——AI以高度自信执行基于错误世界信息的动作,却不触发任何报警,并提出在AI输出与物理执行之间建立独立授权层的框架。
本期《Quick Charge》播客涵盖多个热点话题:特斯拉疑似试图删除FSD欺诈相关证据以规避巨额赔付;卡特彼勒持续推进建筑领域电气化布局;住宅太阳能30%税收抵免即将到期。此外,嘉宾Tom Pacheco就高压系统与电池技术培训展开探讨,强调电动车技术人才培养的紧迫性。节目同时提醒有意安装太阳能的用户尽快行动,可通过EnergySage平台比较多家安装商报价。
UIUC与微软联合研发的OpenWebRL框架让4B小模型仅凭400条初始数据,通过在真实网站上边做边学的强化学习方式,在网页智能体基准上超越了用27万条数据训练的竞争对手。