心流logo

OpenAI数学模型首获IMO金牌

重大突破

OpenAI开发的实验性大语言模型(LLM)在2025年国际数学奥林匹克竞赛(IMO)中达到金牌水平,标志着人工智能推理能力的重要里程碑。OpenAI研究员亚历山大·魏(Alexander Wei)在X平台上宣布:"我们最新的实验性推理LLM实现了人工智能领域一个长期以来的重大挑战:在世界最负盛名的数学竞赛中达到金牌水平的表现。"

竞赛表现

该模型在与人类参赛者完全相同的条件下接受评估,包括两个4个半小时的考试环节,期间不能使用任何工具或访问互联网。模型成功解决了6道题目中的5道,获得42分中的35分。三位前IMO获奖者独立评分,最终成绩基于一致同意的结果。

AI推理能力进展

亚历山大·魏对AI在数学推理能力上的进展进行了说明:"我们已经从GSM8K(顶尖人类约需0.1分钟)到MATH基准(约1分钟),再到AIME(约10分钟),最终达到IMO(约100分钟)水平。"他强调,IMO问题需要持续的创造性思维能力,模型的表现展示了通用强化学习和测试计算方面的重要进展。

GPT-5发展动向

虽然这个IMO金牌模型属于独立研究项目,但OpenAI已确认即将发布GPT-5。Hyperbolic Labs联合创始人金宇辰(Yuchen Jin)透露,GPT-5将是一个多模型系统,配备路由系统在推理、非推理和工具使用等专业模型间进行动态切换。这种架构设计也解释了为什么OpenAI首席执行官萨姆·奥特曼(Sam Altman)此前提到要"修正模型命名"。

历史性进展

亚历山大·魏回顾道:"2021年,我的博士导师雅各布·施泰因哈特(Jacob Steinhardt)让我预测到2025年7月AI在数学方面的进展,当时我只预测MATH基准测试能达到30%,但现在我们已获得IMO金牌。"值得注意的是,2024年谷歌DeepMind的AlphaProof和AlphaGeometry 2曾在IMO竞赛中解决六道题目中的四道,获得银牌级别成绩。