阿里发布Qwen 2.5-Max超大模型

模型技术特点

阿里巴巴推出新一代混合专家（Mixture-of-Experts，MoE）大模型Qwen 2.5-Max，作为对DeepSeek的技术回应。该模型在超过20万亿个训练样本上进行了预训练，并采用监督式微调（Supervised Fine-Tuning，SFT）和基于人类反馈的强化学习（Reinforcement Learning from Human Feedback，RLHF）等前沿技术进行优化。

性能评测结果

在与主流AI模型的多项基准测试对比中，Qwen 2.5-Max展现出优异表现。评测涵盖了多个维度：

MMLU-Pro：测试大学水平问题解决能力
LiveCodeBench：评估编程能力
LiveBench：衡量整体性能
Arena-Hard：评估与人类偏好的匹配度

据阿里巴巴介绍，Qwen 2.5-Max在Arena-Hard、LiveBench、LiveCodeBench和GPQA-Diamond等基准测试中超越了DeepSeek V3，同时在MMLU-Pro等其他评估中也展现出强劲实力。在与DeepSeek V3、Llama-3.1-405B（最大开源密集模型）和Qwen2.5-72B的对比中，该模型表现同样出色。

部署与应用

为促进全球开发者使用，阿里巴巴提供了多种接入方式：

Qwen Chat平台：用户可直接体验模型的对话和搜索能力
阿里云API：开发者可通过"qwen-max-2025-01-25"模型调用服务
OpenAI生态兼容：支持与现有项目无缝集成

未来发展方向

阿里巴巴表示，Qwen 2.5-Max的推出不仅展示了模型性能的提升，更体现了对AI基础研究的持续投入。团队将继续深化强化学习研究，提升模型的推理能力，以期在解决复杂问题方面达到或超越人类水平。