OpenAI的o3人工智能模型在第一方和第三方基准测试结果之间出现显著差异,引发了对其测试透明度和评估方法的质疑。
当OpenAI在12月推出o3时,声称该模型能够回答FrontierMath(前沿数学)中超过四分之一的问题。这一成绩远超竞争对手——排名第二的模型仅能正确回答约2%的问题。
OpenAI首席研究官马克·陈(Mark Chen)在直播中表示:"目前,所有其他产品在FrontierMath上的得分都低于2%。我们在内部测试中发现,在激进的测试计算设置下,o3能够达到超过25%的成绩。"
经证实,该数值可能是测试上限,来自一个计算能力更强的o3版本,而非上周公开发布的版本。FrontierMath的开发机构Epoch AI在周五发布的独立基准测试结果显示,o3的实际得分约为10%,远低于此前宣称的最高分数。
OpenAI已发布了备受期待的推理模型o3,以及规模更小且更经济的o4-mini模型。
这并不表示OpenAI提供了虚假信息。OpenAI在12月发布的基准测试结果中显示的下限分数与Epoch AI观察到的分数相符。Epoch AI指出,测试环境差异和FrontierMath版本更新可能导致结果不同。
根据Epoch AI的解释:"结果差异可能源于OpenAI使用了更强大的内部框架、更多的测试计算资源,或因测试基于不同版本的FrontierMath(frontiermath-2024-11-26版本的180个问题vs frontiermath-2025-02-28-private版本的290个问题)。"
ARC Prize Foundation在测试预发布版本后确认,公开版o3是一个经过优化的不同版本。所有公开发布的o3计算等级都小于基准测试版本,而更大的计算等级通常能获得更好的测试分数。
考虑到OpenAI的o3-mini-high和o4-mini模型已在FrontierMath上超越o3,且计划在未来几周推出更强大的o3-pro版本,公开版o3的表现差异似乎并非关键问题。但这再次提醒我们需要谨慎对待人工智能基准测试结果,特别是来自商业公司的数据。
随着各供应商竞相发布新模型,基准测试争议在人工智能行业频发。1月,Epoch AI因未及时披露OpenAI资助而受到质疑。最近,埃隆·马斯克(Elon Musk)的xAI被指控发布误导性的Grok 3模型测试图表,Meta也承认宣传的基准测试分数来自与公开版本不同的模型。