由 Founders Fund 投资支持的旧金山创业公司 Cognition AI (又称 Cognition Labs) 在 2024 年初凭借发布 Devin 一举成名。Devin 是一款 AI 驱动的软件工程师工具,能够与人类开发者协同工作,通过提示窗口或第三方通讯应用 Slack 接收人类开发者的自然语言指令来自主完成任务。
然而,AI 开发领域发展迅速,许多其他公司也推出了类似功能的自主或半自主编码助手,包括 GitHub Copilot、AWS Developer Q、Codeium 的 Windsurf 和 Cursor。
Cognition 自成立以来一直使用其他模型,主要是 OpenAI 的 GPT-4 和 GPT-4 系列,为 Devin 提供支持。
现在,Cognition 推出了更新版本 Devin 2.0,这是一个升级版的原生代理软件开发平台。目前尚不清楚这个版本使用了什么基础模型。
新版本现已全面推出,引入了一系列功能,旨在使开发者与 Devin 自主代理之间的协作更加顺畅高效。
此外,在经济不确定性和新的特朗普关税导致成本上涨的时期,Cognition 还带来了一个令人欣喜的好消息:Devin 2.0 的起步价仅为每月 20 美元 (每个"代理计算单元"2.25 美元,这是 Cognition 衡量运行 Devin 所需计算资源的单位),而此前版本的起步价约为每月 500 美元。
Devin 2.0 还提供了哪些新功能?
并行 Devin 和新的云端 IDE Devin 2.0 在 Cognition Labs 早期简化软件开发的基础上更进一步,允许用户与多个自主代理并行工作。最新版本引入了交互式云端 IDE 环境,使用户能够同时运行多个 Devin,有效处理多项任务。每个 Devin 都可以自主工作,用户可以随时介入查看、编辑或指导进度。
交互式规划和任务范围界定 Devin 2.0 的一个重要新增功能是交互式规划。该功能允许开发者从宽泛或不完整的想法开始,与 Devin 协作制定详细的任务计划。在开始会话后几秒钟内,Devin 就能自动分析代码库,识别相关文件,并提出初步计划,即使没有人类用户的具体指导或指示。用户随后可以检查并调整这个计划,确保在执行前达成一致。
探索企业代码库 Devin 2.0 还引入了 Devin Search 工具,旨在帮助用户更有效地理解和导航他们的代码库。搜索功能使开发者能够针对代码提出具体问题,并获得引用相关代码片段的详细回答。对于需要深入探索的复杂查询,用户可以激活深度模式。
此外,新版本还包括 Devin Wiki 功能,每隔几小时自动索引存储库。Devin Wiki 生成包含架构图、源代码链接和其他相关细节的综合文档,为开发者提供有组织且持续更新的参考资料。
效率提升和开发者控制 除了新功能外,Cognition Labs 报告称 Devin 2.0 带来了效率提升。根据公司内部基准测试,最新版本在每个代理计算单元 (ACU) 完成初级开发任务的效率提高了 83% 以上。测试期间,Beta 用户也观察到类似的性能提升。
用户可以通过类似 VSCode 的界面与 Devin 2.0 交互,可以查看和编辑 Devin 的工作,并直接在平台环境中运行测试。这种灵活性支持动手和免动手两种工作流程,取决于用户偏好。
从 Devin 1.2 升级 2025 年初,公司发布了 Devin 1.2,其中包括针对上下文推理和语音命令集成的增强功能。这些改进使 Devin 能够更好地分析代码库、识别模式并在适当时重用现有代码。用户还可以通过 Slack 发送语音消息来发出指令,简化了与代理的交互方式。
Devin 1.2 还引入了面向企业环境的功能,如机器快照以简化登录工作流程,以及用于管理多个 Devin 工作空间的集中管理控制。除了这些功能升级外,Cognition Labs 转向基于使用量的计费模式,允许客户为超出订阅限制的额外容量付费。
Devin 与其他 AI 编码代理和平台的当前对比 虽然 Devin 的早期版本将平台定位为加速开发工作流程的创新解决方案,但早期用户反馈突显了一些成长痛点。研究人员和测试人员注意到,该代理有时在处理过于复杂的代码时会遇到困难,出现不必要的抽象,且任务表现不稳定。
尽管如此,Devin 仍吸引了寻求将自主编码代理整合到软件开发流程中的企业客户的兴趣。
Devin 2.0 的新功能和能力——以及大幅降低的入门价格——应该会受到开发者的欢迎,可能会进一步提高 Cognition 平台的采用率,甚至吸引用户从其他竞争对手的编码工具转向他们。
但是,随着 GitHub Copilot、Codeium 的 Windsurf 和 Amazon Q Developer 等都提供免费版本的 AI 编码助手,Devin 2.0 在这个竞争激烈的市场中面临着越来越强大的竞争对手。
好文章,需要你的鼓励
这项研究提出了ORV(占用中心机器人视频生成)框架,利用4D语义占用作为中间表示来生成高质量的机器人操作视频。与传统方法相比,ORV能提供更精确的语义和几何指导,实现更高的时间一致性和控制精度。该框架还支持多视角视频生成(ORV-MV)和模拟到真实的转换(ORV-S2R),有效弥合了虚拟与现实之间的差距。实验结果表明,ORV在多个数据集上的表现始终优于现有方法,为机器人学习和模拟提供了强大工具。
这项研究由Writer公司团队开发的"反思、重试、奖励"机制,通过强化学习教导大型语言模型生成更有效的自我反思内容。当模型回答错误时,它会生成反思并二次尝试,若成功则奖励反思过程。实验表明,该方法在函数调用和数学方程解题上带来显著提升,最高分别改善18.1%和34.7%。令人惊讶的是,经训练的小模型甚至超越了同家族10倍大的模型,且几乎不存在灾难性遗忘问题。这种自我改进技术为资源受限环境下的AI应用开辟了新方向。
FuseLIP是一项突破性研究,提出了通过早期融合离散标记实现多模态嵌入的新方法。与传统CLIP模型使用独立编码器不同,FuseLIP采用单一编码器同时处理图像和文本标记,实现了更自然的模态交互。研究证明,这种早期融合方法在多种多模态任务上表现优异,特别是在需要理解图像结构而非仅语义内容的任务上。研究还开发了创新的数据集和评估任务,为多模态嵌入研究提供了宝贵资源。
ByteDance与浙江大学合作开发的MERIT是首个专为多语言多条件语义检索设计的基准数据集,包含320,000条跨5种语言的查询和135,000个产品。研究发现现有模型在处理多条件查询时过度关注全局语义而忽略特定条件元素,为此提出CORAL框架,通过嵌入重建和对比学习相结合的方式,使检索性能提升45.9%。这项研究不仅识别了现有方法的关键局限性,还为多条件交错语义检索领域的未来研究奠定了基础。