OpenAI发布Codex：AI代理编程新突破

Codex系统简介

5月17日，OpenAI推出了名为Codex（科德克斯）的新编程系统，该系统可以通过自然语言命令执行复杂的编程任务。这标志着OpenAI正式进入了一个正在成形的新兴代理编程工具阵营。

代理编程工具的演进

从GitHub早期的Copilot（副驾驶）到当代的Cursor（光标）和Windsurf（风浪）等工具，大多数AI编程助手都作为高度智能的自动补全形式运作。这些工具通常集成在开发环境中，用户需要直接与AI生成的代码交互。而以Devin、SWE-Agent、OpenHands和Codex为代表的新一代代理编程工具，其设计理念是无需用户直接查看代码，而是像工程团队经理一样，通过Asana或Slack等工作系统分配任务并监督完成。

普林斯顿大学研究员、SWE-Agent团队成员基利安·利雷特（Kilian Lieret）解释道："最初，人们通过逐个按键来编写代码。GitHub Copilot是第一个提供真正自动补全的产品，这算是第二阶段。虽然开发者仍然完全参与其中，但可以使用快捷方式提高效率。"

现实应用中的挑战

在年底Devin公开发布后，它受到了YouTube评论者的严厉批评，以及Answer.AI早期客户更为中肯的评价。主要问题在于：由于错误频繁，监督模型所需的工作量与手动完成任务相当。尽管如此，Devin的母公司Cognition AI在3月份仍以40亿美元估值筹集了数亿美元资金。

OpenHands的维护方All Hands AI的首席执行官罗伯特·布伦南（Robert Brennan）强调了人工监督的重要性："在可预见的未来，人类都必须参与代码审查。一些开发者因为盲目信任代理编写的代码而陷入困境。"

技术瓶颈与未来展望

目前代理编程工具面临的主要问题是AI模型的"幻觉"现象（即生成虚假或不准确的信息）。在SWE-Bench排行榜上，OpenHands解决了65.8%的问题集，而OpenAI声称其Codex模型可达到72.1%的成功率，但这一数据尚未经过独立验证。

科技行业普遍认为，如果代理编程工具只能解决四分之三的问题，就需要人类开发者的持续监督，特别是在处理复杂系统时。要实现真正的自主编程，关键在于提升模型的可靠性和准确性。

布伦南总结道："我们正面临一个瓶颈效应。关键问题是如何在确保可靠性的同时，让这些代理工具真正减轻开发者的工作量。"