OpenAI数学模型首获IMO金牌

重大突破

OpenAI开发的实验性大语言模型（LLM）在2025年国际数学奥林匹克竞赛（IMO）中达到金牌水平，标志着人工智能推理能力的重要里程碑。OpenAI研究员亚历山大·魏（Alexander Wei）在X平台上宣布："我们最新的实验性推理LLM实现了人工智能领域一个长期以来的重大挑战：在世界最负盛名的数学竞赛中达到金牌水平的表现。"

竞赛表现

该模型在与人类参赛者完全相同的条件下接受评估，包括两个4个半小时的考试环节，期间不能使用任何工具或访问互联网。模型成功解决了6道题目中的5道，获得42分中的35分。三位前IMO获奖者独立评分，最终成绩基于一致同意的结果。

AI推理能力进展

亚历山大·魏对AI在数学推理能力上的进展进行了说明："我们已经从GSM8K（顶尖人类约需0.1分钟）到MATH基准（约1分钟），再到AIME（约10分钟），最终达到IMO（约100分钟）水平。"他强调，IMO问题需要持续的创造性思维能力，模型的表现展示了通用强化学习和测试计算方面的重要进展。

GPT-5发展动向

虽然这个IMO金牌模型属于独立研究项目，但OpenAI已确认即将发布GPT-5。Hyperbolic Labs联合创始人金宇辰（Yuchen Jin）透露，GPT-5将是一个多模型系统，配备路由系统在推理、非推理和工具使用等专业模型间进行动态切换。这种架构设计也解释了为什么OpenAI首席执行官萨姆·奥特曼（Sam Altman）此前提到要"修正模型命名"。

历史性进展

亚历山大·魏回顾道："2021年，我的博士导师雅各布·施泰因哈特（Jacob Steinhardt）让我预测到2025年7月AI在数学方面的进展，当时我只预测MATH基准测试能达到30%，但现在我们已获得IMO金牌。"值得注意的是，2024年谷歌DeepMind的AlphaProof和AlphaGeometry 2曾在IMO竞赛中解决六道题目中的四道，获得银牌级别成绩。