心流logo

Meta否认Llama 4基准测试作弊 基准测试真实性如何保证? AI模型评测标准是否需要统一? 技术竞争与道德底线如何平衡?

官方回应质疑

Meta否认其Llama 4模型在训练过程中使用了基准测试数据集。Meta人工智能副总裁艾哈迈德·阿尔-达赫勒(Ahmad Al-Dahle)在社交平台X上表示:"我们听到有人声称我们使用测试集进行训练——这完全不是事实,我们绝不会这样做。"他补充说,公司在模型准备就绪后立即发布,所有公开实现的完全调试还需要几天时间。Meta表示,性能表现不一致是由于实现过程中的稳定性问题所致,而非训练过程存在缺陷。

模型性能争议

Meta最近推出了Scout和Maverick两个新的Llama 4模型。在AI基准测试平台LMArena的模型排名中,Maverick迅速跃居第二位。该平台通过用户对模型一对一对比测试的投票来评估模型性能。Meta在新闻稿中强调,Maverick获得了1417的ELO评分,超过OpenAI的GPT-4,仅次于Gemini 2.5 Pro。

然而,LMArena上评测的Maverick版本与Meta公开发布的版本存在差异。Meta承认在评测中使用了经过优化的"实验性聊天版本"。对此,由lmarena.ai运营的Chatbot Arena公开了超过2,000次一对一对战结果,包括用户提示、模型响应和用户偏好,以确保评测过程的透明度。

社区反响与调查

争议源于一篇在Reddit上viral的帖子,该帖引用了一份据称来自Meta内部员工的中文报告,声称公司在后训练过程中被要求混合使用基准测试集。经人工智能与机器学习(AIM)核实,该员工并未离职,中文帖子纯属虚假信息。

多位AI研究者发现Meta公布的基准测试结果与实际观察存在差异。谷歌DeepMind高级研究工程师苏珊·张(Susan Zhang)对此评论说:"这是一个4D象棋走法:使用Llama 4实验版本入侵LMSys,暴露偏好问题,最终让整个排名系统失信。"

发展前景

在Llama 4发布前,The Information曾报道Meta至少两次推迟发布,原因是模型在技术基准测试特别是推理和数学任务方面的表现未达预期。Meta还承认Llama 4在类人语音对话能力上不及OpenAI的模型。目前,Meta已宣布将很快推出其推理模型,以应对DeepSeek即将发布的推理模型R2的挑战。