号称"首个 AI 软件工程师"的工具被测试者认为表现不佳

近日，被誉为"首个 AI 软件工程师"的工具 Devin 在测试中表现不佳。该工具于 2024 年 3 月推出，声称能自主编写和部署应用程序，但实际测试结果显示，在 20 个任务中仅完成 3 个。测试人员指出，Devin 在处理复杂任务时往往陷入技术死胡同，产生无法使用的解决方案，甚至尝试执行不可能完成的任务。

根据最近的评估，一个被称为"首个 AI 软件工程师"的服务似乎在工作表现上相当糟糕。

这个自动编码工具名为 "Devin"，于 2024 年 3 月推出。其创造者 Cognition AI 声称 "Devin 可以端到端地构建和部署应用程序"，并且"能够自主发现和修复代码库中的 bug"。该工具于 2024 年 12 月正式发布，起价为每月 500 美元。

根据 Cognition 的文档描述："Devin 是一个自主的 AI 软件工程师，能够编写、运行和测试代码，帮助软件工程师处理个人任务或团队项目。" 它"可以审查 PR、支持代码迁移、响应随叫随到的问题、构建网络应用程序，甚至可以执行个人助理任务，比如通过 DoorDash 帮你订午餐，让你专注于代码开发。"

该服务主要通过 Slack 接收命令，这些命令会被发送到其计算环境中 - 一个包含终端、浏览器、代码编辑器和规划器的 Docker 容器。这个 AI 代理支持与外部服务的 API 集成，例如，它可以通过 SendGrid 代表用户发送电子邮件。

Devin 是一个"复合 AI 系统"，这意味着它依赖于多个底层 AI 模型，包括 OpenAI 的 GPT-4，且这些模型可能会随时间演变。

理论上，你应该能够要求它执行诸如将代码迁移到 nbdev（一个 Jupyter Notebook 开发平台）之类的任务，并期望它成功完成。但这可能要求过高了。

Devin 的早期评估发现了一些问题。Cognition AI 发布了一段宣传视频，声称展示了 AI 编码器在自由职业者平台 Upwork 上自主完成项目的过程。软件开发者 Carl Brown 在他的 Internet of Bugs YouTube 频道上分析并揭露了该视频的问题。

该软件代理还被另一位 YouTube 代码评论员指出据称存在严重的安全问题。

现在，三位隶属于 Answer.AI（由 Jeremy Howard 和 Eric Ries 创立的 AI 研究和开发实验室）的数据科学家对 Devin 进行了测试，发现它在 20 个任务中仅成功完成了 3 个。

Hamel Husain、Isaac Flath 和 Johno Whitaker 在本月早些时候进行的分析中发现，Devin 开始表现不错，成功地将数据从 Notion 数据库导入到 Google Sheets。这个 AI 代理还成功创建了一个用于检查木星和土星历史位置的行星追踪器。

但随着三位研究人员继续测试，他们遇到了问题。

研究人员在报告中解释道："看似简单的任务往往需要花费数天而不是数小时，Devin 要么陷入技术死胡同，要么产生过于复杂、无法使用的解决方案。更令人担忧的是，Devin 倾向于继续推进实际上不可能完成的任务。"

例如，当要求 Devin 在基础设施部署平台 Railway 上部署多个应用程序时，它没有意识到这是不支持的功能，花费了超过一天的时间尝试无效的方法，并臆想出不存在的功能。

在提供给 Devin 的 20 个任务中，这个 AI 软件工程师只令人满意地完成了 3 个 - 上面提到的两个以及第三个用 Python 研究如何构建 Discord 机器人的任务。另外 3 个任务结果不确定，14 个项目彻底失败。

研究人员表示，Devin 提供了一个精致的用户体验，在正常工作时令人印象深刻。

"但问题在于 - 它很少能正常工作，"他们写道。

"更令人担忧的是我们无法预测哪些任务会成功。即使是与早期成功案例类似的任务，也会以复杂且耗时的方式失败。最初看似有前途的自主性反而成了一个负担 - Devin 会花费数天时间追求不可能的解决方案，而不是认识到根本性的障碍。"

Cognition AI 没有回应置评请求。

来源：The Register

0赞

好文章，需要你的鼓励

号称"首个 AI 软件工程师"的工具被测试者认为表现不佳

来源：The Register

2025

01/24

15:13

分享

点赞

WAIC2026 现场直击：开普勒顶流人气王，麒麟系列火爆出圈

面壁智能将密度定律带入具身智能

龙磁科技拟投3.58亿元扩建越南永磁铁氧体基地

首创一层Scale-up网络256卡全互联，摩尔线程MTT C256超节点为万卡及十万卡级集群夯实底座

从高血压诊疗入手，北京安贞医院让医疗大模型走出聊天框

西门子肖松：以场景为牵引，推动工业AI从单点实效迈向生产力跃迁

打造Token极致性价比 新华三震撼亮相2026世界人工智能大会

机器人管家系统上线！傅利叶携多款康养陪伴新品方案亮相WAIC 2026

赛那德“ 自主作业机器人天团” 登陆 WAIC：iLoabot-X+模型双升级，秀出具身场景落地硬实力

西门子Eigen工程智能体中国首发首展，荣获2026 WAIC SAIL之星奖

NVIDIA Cosmos 推动物理 AI 前沿发展

PPIO亮相WAIC 2026：发布智能模型网关，打造面向Agent时代的智能Token工厂

最热门的 AI 模型：它们的功能和使用方法

这款古怪的 AI 智能手机可以创建你的数字分身

Faireez 获 750 万美元融资，为租赁市场提供 AI 驱动的酒店式管家服务

Broadcom 大获全胜：70% 大型 VMware 客户购买其最全面解决方案

Peer 获得1050万美元元宇宙引擎投资，推出3D个人星球功能

获 3000 万美元融资，Crogl 发布面向安全分析师的全新 AI "钢铁侠战衣"

Turing 获得 1.11 亿美元融资，估值达到 22 亿美元，为 OpenAI 等大语言模型公司提供关键代码支持

Tavus 推出系列 AI 模型，实现实时人脸交互技术突破

Welevel 获得 570 万美元融资，革新程序化游戏开发

AI 驱动的卓越运营：企业如何通过人人可及的流程智能提升成功

如果您非常迫切的想了解IT领域最新产品与技术信息，那么订阅至顶网技术邮件将是您的最佳途径之一

三一集团：数字化是必选项，AI是生存项

因湃电池 × 达索系统：如何共创出一套电池产业最佳实践

AI走进真实世界之后：安全、健康与产业的新命题

CES 2026

关注官方公众号

关注官方微博

关注官方喜马拉雅

友情链接

业界热点:

打造Token极致性价比新华三震撼亮相2026世界人工智能大会