OpenAI模型实测成绩低于宣传水平

测试结果差异

OpenAI的o3人工智能模型在第一方和第三方基准测试结果之间出现显著差异，引发了对其测试透明度和评估方法的质疑。

当OpenAI在12月推出o3时，声称该模型能够回答FrontierMath（前沿数学）中超过四分之一的问题。这一成绩远超竞争对手——排名第二的模型仅能正确回答约2%的问题。

OpenAI首席研究官马克·陈（Mark Chen）在直播中表示："目前，所有其他产品在FrontierMath上的得分都低于2%。我们在内部测试中发现，在激进的测试计算设置下，o3能够达到超过25%的成绩。"

差异原因分析

经证实，该数值可能是测试上限，来自一个计算能力更强的o3版本，而非上周公开发布的版本。FrontierMath的开发机构Epoch AI在周五发布的独立基准测试结果显示，o3的实际得分约为10%，远低于此前宣称的最高分数。

OpenAI已发布了备受期待的推理模型o3，以及规模更小且更经济的o4-mini模型。

这并不表示OpenAI提供了虚假信息。OpenAI在12月发布的基准测试结果中显示的下限分数与Epoch AI观察到的分数相符。Epoch AI指出，测试环境差异和FrontierMath版本更新可能导致结果不同。

根据Epoch AI的解释："结果差异可能源于OpenAI使用了更强大的内部框架、更多的测试计算资源，或因测试基于不同版本的FrontierMath（frontiermath-2024-11-26版本的180个问题vs frontiermath-2025-02-28-private版本的290个问题）。"

ARC Prize Foundation在测试预发布版本后确认，公开版o3是一个经过优化的不同版本。所有公开发布的o3计算等级都小于基准测试版本，而更大的计算等级通常能获得更好的测试分数。

行业现状

考虑到OpenAI的o3-mini-high和o4-mini模型已在FrontierMath上超越o3，且计划在未来几周推出更强大的o3-pro版本，公开版o3的表现差异似乎并非关键问题。但这再次提醒我们需要谨慎对待人工智能基准测试结果，特别是来自商业公司的数据。

随着各供应商竞相发布新模型，基准测试争议在人工智能行业频发。1月，Epoch AI因未及时披露OpenAI资助而受到质疑。最近，埃隆·马斯克（Elon Musk）的xAI被指控发布误导性的Grok 3模型测试图表，Meta也承认宣传的基准测试分数来自与公开版本不同的模型。