心流logo

OpenAI新模型o3智商测试超人类水平

AI模型智商测试成绩

根据追踪人工智能公司(Tracking AI)的数据,在沃罗诺伊公司(Voronoi)最新进行的基准测试中,OpenAI的o3模型展现出了最强大的认知能力。该测试采用了挪威门萨(Mensa)智商测试,这是一项通常用于评估人类智力的高难度测试。o3模型在测试中获得了135分的智商得分,远超90-110分的人类平均水平。

其他表现优异的AI模型包括人工智能公司(Anthropic)的克劳德-4索尼特(Claude-4 Sonnet,得分127)和谷歌的双子座2.0闪电(Gemini 2.0 Flash,得分126)。

视觉AI与文本AI的差异

此次分析涵盖了24个领先的AI模型,排名靠前的大多是纯文本模型,而具备视觉能力的系统得分明显较低。具备视觉功能的GPT-4o智商得分为63分,而格罗克-3思维视觉版(Grok-3 Think Vision)得分为60分。

这些结果表明,尽管AI在基于语言的推理能力上正在迅速超越人类基准,但在视觉和多模态系统的抽象问题解决能力方面仍存在明显差距。测试结果揭示了AI模型在通用智能与特定领域能力之间的发展不平衡性。

AI推理能力的局限性

在一篇题为《思维的假象》(The Illusion of Thinking)的新论文中,苹果公司的研究人员指出,即使是最先进的AI模型,包括所谓的大型推理模型(Large Reasoning Models, LRMs),实际上也并不具备真正的思维能力。相反,它们只是在模拟推理过程,而没有真正理解或解决复杂问题。

这篇在苹果全球开发者大会前发布的论文,使用专门设计的算法谜题环境,对包括OpenAI的o1/o3、深度探索-R1(DeepSeek-R1)、克劳德3.7索尼特思维版(Claude 3.7 Sonnet Thinking)和双子座思维版(Gemini Thinking)在内的领先AI模型进行了测试。

研究人员发现,传统的基准测试(如数学和编程测试)由于"数据污染"而存在缺陷,无法真实反映这些模型的"思维"方式。论文指出:"我们发现,最先进的LRMs仍然无法发展出可泛化的问题解决能力,在不同环境中,当复杂度超过某个临界点时,其准确率最终会降至零。"