新AI智能测试难倒顶尖模型

新测试发布

由著名AI研究员弗朗索瓦·肖莱（François Chollet）共同创立的非营利组织Arc Prize基金会（Arc Prize Foundation）周二在博客中宣布推出新一代人工智能测试。这项名为ARC-AGI-2的测试旨在衡量领先AI模型的通用智能水平。

测试表现

根据Arc Prize排行榜显示，专门用于推理的AI模型如OpenAI的o1-pro和DeepSeek的R1在ARC-AGI-2上的得分仅为1%到1.3%。即便是GPT-4.5、Claude 3.7 Sonnet和Gemini 2.0 Flash等非专门推理型模型的得分也仅约1%。相比之下，Arc Prize基金会组织的400多名测试人员平均正确率达到60%。

测试机制创新

ARC-AGI-2测试要求AI从不同颜色方块的集合中识别视觉模式并生成正确答案网格。与第一代测试相比，新测试引入效率指标，要求模型即时解释模式而非依赖记忆，防止依赖大规模计算来寻找解决方案。

Arc Prize基金会联合创始人格雷格·卡姆拉特（Greg Kamradt）强调，智能不仅体现在解决问题的能力上，获取和部署能力的效率同样重要。核心评估维度包括技能获取能力和效率成本。

性能与效率对比

此前的ARC-AGI-1测试在五年内未被超越，直到2024年12月OpenAI的o3模型达到人类水平表现。然而，o3模型的低配版本虽在ARC-AGI-1上获得75.7%的高分，但在新测试中仅得4%，且每个任务需耗费200美元计算成本。

未来展望

Hugging Face联合创始人托马斯·沃尔夫（Thomas Wolf）指出，AI行业缺乏足够测试来衡量人工通用智能的关键特征。Arc Prize基金会已宣布2025年竞赛，挑战开发者在每任务成本0.42美元限制下，实现ARC-AGI-2测试85%的准确率。