来自OpenAI、Anthropic等顶级AI实验室的人工智能模型正越来越多地被用于辅助编程任务。谷歌CEO桑达尔·皮查伊(Sundar Pichai)在10月表示,该公司25%的新代码由AI生成。Meta CEO马克·扎克伯格(Mark Zuckerberg)也表示将在公司内广泛部署AI编码模型。
微软研究院(Microsoft Research)的最新研究显示,包括Anthropic的Claude 3.7 Sonnet和OpenAI的o3-mini在内的模型,在SWE-bench Lite软件开发基准测试中表现欠佳。研究团队测试了九个不同的模型,这些模型作为AI系统的核心,可以使用Python调试器等多种调试工具。
在300个精选软件调试任务中,即使配备了更强大和更新的模型,成功完成率也普遍不高。其中:
研究发现性能不佳的主要原因有两个:
研究团队认为,通过专门的训练数据和模型微调可以改善这一状况,特别是需要收集更多记录调试过程的轨迹数据。
这项研究虽然可能不会减弱投资者对AI辅助编码工具的热情,但提醒开发团队需要谨慎对待AI在编程中的应用。越来越多的科技领袖,包括微软联合创始人比尔·盖茨(Bill Gates)、Replit CEO阿姆贾德·马萨德(Amjad Masad)、Okta CEO托德·麦金农(Todd McKinnon)和IBM CEO阿文德·克里希纳(Arvind Krishna)均认为,编程作为一个职业将继续存在,而不会被AI完全取代。