心流logo

OpenAI发布Codex:AI代理编程新突破

Codex系统简介

5月17日,OpenAI推出了名为Codex(科德克斯)的新编程系统,该系统可以通过自然语言命令执行复杂的编程任务。这标志着OpenAI正式进入了一个正在成形的新兴代理编程工具阵营。

代理编程工具的演进

从GitHub早期的Copilot(副驾驶)到当代的Cursor(光标)和Windsurf(风浪)等工具,大多数AI编程助手都作为高度智能的自动补全形式运作。这些工具通常集成在开发环境中,用户需要直接与AI生成的代码交互。而以Devin、SWE-Agent、OpenHands和Codex为代表的新一代代理编程工具,其设计理念是无需用户直接查看代码,而是像工程团队经理一样,通过Asana或Slack等工作系统分配任务并监督完成。

普林斯顿大学研究员、SWE-Agent团队成员基利安·利雷特(Kilian Lieret)解释道:"最初,人们通过逐个按键来编写代码。GitHub Copilot是第一个提供真正自动补全的产品,这算是第二阶段。虽然开发者仍然完全参与其中,但可以使用快捷方式提高效率。"

现实应用中的挑战

在年底Devin公开发布后,它受到了YouTube评论者的严厉批评,以及Answer.AI早期客户更为中肯的评价。主要问题在于:由于错误频繁,监督模型所需的工作量与手动完成任务相当。尽管如此,Devin的母公司Cognition AI在3月份仍以40亿美元估值筹集了数亿美元资金。

OpenHands的维护方All Hands AI的首席执行官罗伯特·布伦南(Robert Brennan)强调了人工监督的重要性:"在可预见的未来,人类都必须参与代码审查。一些开发者因为盲目信任代理编写的代码而陷入困境。"

技术瓶颈与未来展望

目前代理编程工具面临的主要问题是AI模型的"幻觉"现象(即生成虚假或不准确的信息)。在SWE-Bench排行榜上,OpenHands解决了65.8%的问题集,而OpenAI声称其Codex模型可达到72.1%的成功率,但这一数据尚未经过独立验证。

科技行业普遍认为,如果代理编程工具只能解决四分之三的问题,就需要人类开发者的持续监督,特别是在处理复杂系统时。要实现真正的自主编程,关键在于提升模型的可靠性和准确性。

布伦南总结道:"我们正面临一个瓶颈效应。关键问题是如何在确保可靠性的同时,让这些代理工具真正减轻开发者的工作量。"