心流logo

AI模型软件调试能力仍落后人类 AI在软件调试中的局限性从何而来? 如何看待AI取代程序员的说法? 提升AI调试能力的关键是什么?

AI编程应用现状

来自OpenAI、Anthropic等顶级AI实验室的人工智能模型正越来越多地被用于辅助编程任务。谷歌CEO桑达尔·皮查伊(Sundar Pichai)在10月表示,该公司25%的新代码由AI生成。Meta CEO马克·扎克伯格(Mark Zuckerberg)也表示将在公司内广泛部署AI编码模型。

研究发现

微软研究院(Microsoft Research)的最新研究显示,包括Anthropic的Claude 3.7 Sonnet和OpenAI的o3-mini在内的模型,在SWE-bench Lite软件开发基准测试中表现欠佳。研究团队测试了九个不同的模型,这些模型作为AI系统的核心,可以使用Python调试器等多种调试工具。

在300个精选软件调试任务中,即使配备了更强大和更新的模型,成功完成率也普遍不高。其中:

性能不佳原因分析

研究发现性能不佳的主要原因有两个:

  1. 模型在使用调试工具和理解工具用途方面存在困难
  2. 训练数据中缺乏足够的人类调试过程记录

研究团队认为,通过专门的训练数据和模型微调可以改善这一状况,特别是需要收集更多记录调试过程的轨迹数据。

行业影响与展望

这项研究虽然可能不会减弱投资者对AI辅助编码工具的热情,但提醒开发团队需要谨慎对待AI在编程中的应用。越来越多的科技领袖,包括微软联合创始人比尔·盖茨(Bill Gates)、Replit CEO阿姆贾德·马萨德(Amjad Masad)、Okta CEO托德·麦金农(Todd McKinnon)和IBM CEO阿文德·克里希纳(Arvind Krishna)均认为,编程作为一个职业将继续存在,而不会被AI完全取代。