Qwen2.5 Technical Report
Qwen2.5 技术报告
1. 模型配置
- 模型大小:Qwen2.5 提供从 5 亿到 720 亿个参数的密集和混合专家 (MoE) 变体。
- 指令调优:提供了指令调优和量化版本,以优化各种应用的性能。
- 可扩展性:Qwen2.5-Turbo 等模型最高支持 100 万个 token,适用于文档分析、扩展对话等长上下文应用
。
2. 增强训练
- 预训练数据集:预训练数据集从之前的 7 万亿个标记扩展到了 18 万亿个标记,提高了数学、编码和一般推理任务的性能。
- 后训练创新:实施了超过一百万个样本的复杂监督微调和多阶段强化学习,增强了人类偏好对齐,并显著改善了长文本生成、结构化数据分析和指令遵循
。
3. 技术特点
- 预训练数据优势:Qwen2.5 在预训练数据量上达到了 18 亿 token,超过了 meta llama-3.1 的 15 亿 token
。
- 整体性能升级:与 Qwen2 相比,Qwen2.5 的整体性能提升了 18% 以上,尤其在知识能力、数学能力和指令跟随能力方面
。
- 语言支持:支持中文、英文、法文、西班牙文、俄文、日文、越南文、阿拉伯文等 29 种以上语言,具有强大的多语言能力
。
4. 模型系列
- 开源权重模型:发布了 7 种不同规模的预训练和指令微调模型,包括 0.5B、1.5B、3B、7B、14B、32B 和 72B,并提供原始模型(bfloat16 精度)及不同精度的量化版本
。
- 混合专家(MoE)模型:发布了 Qwen2.5-Turbo 和 Qwen2.5-Plus,它们在性能上分别与 GPT-4o-mini 和 GPT-4o 竞争
。
5. 性能评估
- 基础模型:Qwen2.5-72B 在广泛的任务中显著超越同类模型,特别是在通用任务、数学和编码挑战中表现突出
。
- 多语言任务:在多语言任务中,Qwen2.5 在 M3Exam、IndoMMLU、ruMMLU 和翻译后的 MMLU 等任务上表现优异
。
6. 技术细节
- 模型架构:采用基于 Transformer 的模型架构,并引入了一些先进的设计思路,如分组查询注意力、SwiGLU 激活函数和旋转位置嵌入等
。
- 数据准备:通过精细的过滤和评分机制,精心挑选高质量的训练数据,并结合战略性的数据混合
。
7. 应用领域
- 自然语言处理:用于文本生成、问答等任务。
- 编程:提供代码生成与辅助。
- 数学问题求解:支持使用思维链和工具集成推理(TIR)解决中英双语的数学题
。
8. 社区支持
- 开放权重:开源权重模型使得普通用户和开发者更容易访问大型语言模型,促进了更多的研究参与和社区合作创新
。
总结
Qwen2.5 在预训练和后训练阶段都进行了显著改进,提供了丰富的模型选项,满足了从学术研究到工业应用的广泛需求。通过增强训练和优化数据准备,Qwen2.5 在多个基准测试中表现出顶级性能,尤其在长文本生成、