心流logo

新AI智能测试难倒顶尖模型

新测试发布

由著名AI研究员弗朗索瓦·肖莱(François Chollet)共同创立的非营利组织Arc Prize基金会(Arc Prize Foundation)周二在博客中宣布推出新一代人工智能测试。这项名为ARC-AGI-2的测试旨在衡量领先AI模型的通用智能水平。

测试表现

根据Arc Prize排行榜显示,专门用于推理的AI模型如OpenAI的o1-pro和DeepSeek的R1在ARC-AGI-2上的得分仅为1%到1.3%。即便是GPT-4.5、Claude 3.7 Sonnet和Gemini 2.0 Flash等非专门推理型模型的得分也仅约1%。相比之下,Arc Prize基金会组织的400多名测试人员平均正确率达到60%。

测试机制创新

ARC-AGI-2测试要求AI从不同颜色方块的集合中识别视觉模式并生成正确答案网格。与第一代测试相比,新测试引入效率指标,要求模型即时解释模式而非依赖记忆,防止依赖大规模计算来寻找解决方案。

Arc Prize基金会联合创始人格雷格·卡姆拉特(Greg Kamradt)强调,智能不仅体现在解决问题的能力上,获取和部署能力的效率同样重要。核心评估维度包括技能获取能力和效率成本。

性能与效率对比

此前的ARC-AGI-1测试在五年内未被超越,直到2024年12月OpenAI的o3模型达到人类水平表现。然而,o3模型的低配版本虽在ARC-AGI-1上获得75.7%的高分,但在新测试中仅得4%,且每个任务需耗费200美元计算成本。

未来展望

Hugging Face联合创始人托马斯·沃尔夫(Thomas Wolf)指出,AI行业缺乏足够测试来衡量人工通用智能的关键特征。Arc Prize基金会已宣布2025年竞赛,挑战开发者在每任务成本0.42美元限制下,实现ARC-AGI-2测试85%的准确率。