OpenAI 的 Codex 是新一代 agentic 编程工具的一部分

文章介绍了 OpenAI 推出的全新编码系统 Codex，该系统可根据自然语言指令执行复杂编程任务，并引领从传统自动补全向自主完成编程任务转变，同时讨论了此类工具面临的挑战与未来发展前景。

近期，OpenAI 推出了一种名为 Codex 的新型编程系统，旨在通过自然语言指令执行复杂的编程任务。Codex 将 OpenAI 带入了一类全新的 agentic 编程工具，目前这类工具正处于初步成型阶段。

从 GitHub 早期的 Copilot 到 Cursor 和 Windsurf 等当代工具，大多数 AI 编程助手都表现为一种异常智能的自动补全形式。这些工具通常嵌入在集成开发环境中，用户直接与 AI 生成的代码交互。而仅仅分派一个任务，然后稍后回来取结果的设想仍然遥不可及。

但这些由 Devin、 SWE-Agent、 OpenHands 以及前述 OpenAI Codex 等产品引领的新型 agentic 编程工具，设计上不要求用户查看代码。目标是扮演工程团队经理的角色，通过 Asana 或 Slack 等工作系统分派问题，并在解决方案达成后进行核查。

对于信奉高能力 AI 形态的人来说，这标志着自动化逐步接管越来越多软件工作量的下一个合理阶段。

普林斯顿大学研究员、 SWE-Agent 团队成员 Kilian Lieret 解释说：“起初，人们是通过每一个按键来编写代码的。GitHub Copilot 是第一个真正提供自动补全功能的产品，这是第二阶段。你仍然完全参与其中，但有时你可以走捷径。”

agentic 系统的目标则是完全跳出开发者环境，将问题直接交给编码代理，然后让它们自行解决。“我们把流程提升到管理层面，我只需要分派一个 bug 报告，而机器人就会尝试完全自主地修复它，”Lieret 说道。

这是一个雄心勃勃的目标，到目前为止，其推进过程仍充满困难。

在 Devin 于 2024 年底普及后，它遭到了 YouTube 评论员的严厉批评，同时 Answer.AI 的一位早期客户也提出了较为冷静的批评。总体印象与许多熟悉 vibe-coding 的资深人士所经历的情形类似：错误频出，监督模型所花费的精力几乎与手动完成任务无异。（尽管 Devin 的推出来得有些波折，但这并未阻止投资者看好其潜力 —— 据报道，Devin 的母公司 Cognition AI 在 3 月份以 40 亿美元估值成功募集了数亿美元。）

即便是技术支持者也警告，不要对 vibe-coding 采取无监督的方式，将这些新型编码代理视为需要人类监督的开发过程中的强大组成部分。

All Hands AI（负责维护 OpenHands）的 CEO Robert Brennan 表示：“目前，且在可预见的未来，代码审查时总需要人类介入，亲自检查生成的代码。我见过好几个人因为自动批准代理写出的每一行代码而陷入混乱，事情一旦失控就很快变糟。”

幻觉问题仍然存在。Brennan 回忆起一次事件，当被询问一个在 OpenHands 代理训练数据截止之后发布的 API 时，代理竟编造出一些符合描述的 API 细节。All Hands AI 表示，他们正在开发系统以在这些幻觉造成损害之前捕捉到它们，但目前并没有简单的解决办法。

可以说，衡量 agentic 编程进展的最佳标尺是 SWE-Bench 排行榜，在这个排行榜上，开发者可以测试其模型对 GitHub 开源仓库中尚未解决问题的处理能力。目前，OpenHands 在经过验证的排行榜上名列榜首，解决了 65.8% 的问题集。OpenAI 宣称支撑 Codex 的某一模型 codex-1 表现更优，并在公告中列出了 72.1% 的得分 —— 尽管这一分数附带了一些限制，且尚未经过独立验证。

许多科技业内人士担忧，高基准得分不一定意味着真正实现了完全无干预的 agentic 编程。如果 agentic 编码器每解决四个问题中只有三个成功，那么在面对具有多阶段复杂系统时，就必然需要人类开发者大量监督。

与大多数 AI 工具类似，人们希望基础模型的不断改进能推动 agentic 编程系统逐渐演变成可靠的开发工具。但要达到这一目标，找到管理幻觉及其他可靠性问题的方法将至关重要。

Brennan 指出：“我认为目前存在一种类似音障的效应。关键问题是，你能将多少信任转移给这些代理，从而在最终减轻你的工作负担呢？”

来源：Techcrunch

0赞

好文章，需要你的鼓励

OpenAI 的 Codex 是新一代 agentic 编程工具的一部分

来源：Techcrunch

2025

05/21

09:47

分享

点赞

数智时代，openGauss Summit 2025即将发布哪些技术创新破局

“算力+储能”深度融合：超智算发布分布式算力超级节点储能解决方案

联想推出DE6600系列：更智能的存储解决方案

创业公司如何在严格监管行业中实现生死攸关的创新

OpenAI发布GPT-5.2-Codex模型，软件工程自动化能力大幅提升

Waterfox浏览器宣布拒绝AI功能，瞄准Firefox忠实用户

TikTok美国业务出售交易将于下月完成

破局AI数据中心安全瓶颈：Fortinet联合NVIDIA引领隔离式加速新航向

智算中心进化论，科华数据如何做到“更懂”

更高负载、更快建设：2026年数据中心六大趋势

Snowflake数据库更新引发全球大规模服务中断

AI编程初创公司Lovable融资3.3亿美元，英伟达等科技巨头支持

Mark Sherwood 引领 Wolters Kluwer 迈向云与 AI 转型

ChatGPT 的图像生成器现已集成于 Microsoft Copilot，你可以用它做这些事

Nvidia 开放 AI 生态体系 以挑战全球芯片制造商

Microsoft 将极具疯狂特色的 Grok 加入 Azure AI 阵容

AI 对算力的渴望推动企业迈向超级计算

在 Computex 展会上，Nvidia 推出 AI GPU 计算市场、 NVLink Fusion 和未来可期的人形 AI

高通确认进入数据中心市场，可能面向 AI

Kissflow 在低代码市场找到自己的位置

大家都在部署 AI，却无人确保其安全——可能会出什么问题？

宏碁在 Computex 2025 展会上推出搭载 AI 技术的可穿戴设备

如果您非常迫切的想了解IT领域最新产品与技术信息，那么订阅至顶网技术邮件将是您的最佳途径之一

2025 re:Invent ：亚马逊云科技把Agentic AI生态梳理明白了

电子竞技瞬息万变，Team Liquid的“数据+AI”制胜秘籍

中国移动呼和浩特数据中心：只有高效存力先行，AI才能跑出全力

从“支撑工具”到“智能中枢”，AI原生ERP进化

关注官方公众号

关注官方微博

关注官方喜马拉雅

友情链接

业界热点:

Nvidia 开放 AI 生态体系以挑战全球芯片制造商