中国科技巨头字节跳动(ByteDance)上周发布了其Seed 1.6系列人工智能模型的技术报告。报告详细介绍了该模型在各项评估中的表现,包括在多个大学入学考试中的得分情况。
在2025年印度理工学院联合入学考试(IIT-JEE Advanced)中,字节跳动的Seed 1.6-Thinking模型与谷歌的Gemini 2.5 Pro、Anthropic的Claude Opus 4以及OpenAI的o4-mini-high模型进行了测试对比。
测试结果显示,Gemini 2.5 Pro在满分360分的考试中获得336.2分,超过了2025年考试中成绩最高的考生332分。Seed 1.6-Thinking模型以329.6分位居第二,领先于Claude Opus 4(314.4分)和o4-mini-high(308.4分)。在各科目成绩方面,Gemini 2.5 Pro在化学科目中得分最高,而Seed 1.6-Thinking则在数学科目中得分最高,并在所有考生中总分排名第四。
字节跳动对这些模型进行了包含图像输入的测试,评估了它们的多模态和推理能力。所有客观题都进行了5次采样,报告给出了每个样本的平均分数。评分严格遵循IIT-JEE考试规则,错误答案会被扣分。
印度理工学院联合入学考试(IIT-JEE Advanced)被广泛认为是世界上最具挑战性的考试之一,是印度理工学院入学考试的第二阶段。在第一阶段的IIT-JEE Mains考试中,只有前25万名考生有资格参加高级阶段考试。考生需要接受物理、化学和数学科目的测试,印度理工学院的录取率通常低于2%。