心流logo

AI基准测试众包模式遭专家质疑

众包测试现状

人工智能(AI)实验室越来越依赖"聊天机器人竞技场"(Chatbot Arena)等众包基准测试平台来探索其最新模型的优势和不足。然而,多位专家表示,从伦理和学术角度来看,这种方法存在严重问题。

近年来,包括OpenAI、谷歌(Google)和Meta在内的实验室纷纷转向招募用户来帮助评估即将推出的模型能力的平台。当模型获得理想分数时,开发该模型的实验室往往会将这一分数作为重大进展的证据。

专家质疑

华盛顿大学语言学教授、《人工智能骗局》(The AI Con)一书的合著者艾米莉·本德(Emily Bender)认为这种方法存在明显缺陷。本德特别质疑"聊天机器人竞技场"的评估方式,该平台要求志愿者向两个匿名模型提问并选择更优回答。

本德指出:"要想有效,基准测试需要衡量具体的内容,并且需要具有构建效度。必须有证据表明所关注的构建是明确定义的,且测量结果确实与构建相关。'聊天机器人竞技场'尚未证明投票选择与用户偏好之间存在真正的相关性。"

存在的问题

人工智能公司Lesan的联合创始人、分布式人工智能研究所研究员阿斯梅拉什·特卡·哈杜(Asmelash Teka Hadgu)表示,这类基准测试正被AI实验室用来宣传夸大的成果。他举例说明Meta的Llama 4 Maverick模型争议:Meta对模型进行微调以提升测试成绩,却发布了性能较差的版本。

改进建议

哈杜建议基准测试应该具备以下特点:

前阿斯彭研究所新兴智能技术计划负责人克里斯汀·格洛里亚(Kristine Gloria)强调,应吸取数据标注行业的教训,确保对模型评估者提供合理报酬。

未来发展

格雷天鹅人工智能公司(Gray Swan AI)首席执行官马特·弗雷德里克森(Matt Frederikson)表示,除了志愿者参与外,开发者还需要依靠:

加州大学伯克利分校人工智能博士生、LM Arena维护者魏林·蒋(Wei-Lin Chiang)表示,平台已采取措施确保评估的公平性和可重复性。他强调:"我们的目标是创建可信赖的开放空间,用于衡量社区对不同AI模型的真实偏好。只要排行榜忠实反映社区的声音,我们就欢迎分享。"