OpenAI新模型o3智商测试超人类水平

AI模型智商测试成绩

根据追踪人工智能公司（Tracking AI）的数据，在沃罗诺伊公司（Voronoi）最新进行的基准测试中，OpenAI的o3模型展现出了最强大的认知能力。该测试采用了挪威门萨（Mensa）智商测试，这是一项通常用于评估人类智力的高难度测试。o3模型在测试中获得了135分的智商得分，远超90-110分的人类平均水平。

其他表现优异的AI模型包括人工智能公司（Anthropic）的克劳德-4索尼特（Claude-4 Sonnet，得分127）和谷歌的双子座2.0闪电（Gemini 2.0 Flash，得分126）。

视觉AI与文本AI的差异

此次分析涵盖了24个领先的AI模型，排名靠前的大多是纯文本模型，而具备视觉能力的系统得分明显较低。具备视觉功能的GPT-4o智商得分为63分，而格罗克-3思维视觉版（Grok-3 Think Vision）得分为60分。

这些结果表明，尽管AI在基于语言的推理能力上正在迅速超越人类基准，但在视觉和多模态系统的抽象问题解决能力方面仍存在明显差距。测试结果揭示了AI模型在通用智能与特定领域能力之间的发展不平衡性。

AI推理能力的局限性

在一篇题为《思维的假象》（The Illusion of Thinking）的新论文中，苹果公司的研究人员指出，即使是最先进的AI模型，包括所谓的大型推理模型（Large Reasoning Models, LRMs），实际上也并不具备真正的思维能力。相反，它们只是在模拟推理过程，而没有真正理解或解决复杂问题。

这篇在苹果全球开发者大会前发布的论文，使用专门设计的算法谜题环境，对包括OpenAI的o1/o3、深度探索-R1（DeepSeek-R1）、克劳德3.7索尼特思维版（Claude 3.7 Sonnet Thinking）和双子座思维版（Gemini Thinking）在内的领先AI模型进行了测试。

研究人员发现，传统的基准测试（如数学和编程测试）由于"数据污染"而存在缺陷，无法真实反映这些模型的"思维"方式。论文指出："我们发现，最先进的LRMs仍然无法发展出可泛化的问题解决能力，在不同环境中，当复杂度超过某个临界点时，其准确率最终会降至零。"