阿里巴巴于周一发布了Qwen 3系列人工智能模型。该公司表示,这些模型在某些领域的性能可以与谷歌(Google)和OpenAI的顶级模型相媲美,甚至表现更优。
这些模型大多数已经或即将在人工智能开发平台Hugging Face和GitHub上以开源许可证形式供下载。模型规模从6亿参数到2350亿参数不等,其中参数数量与模型的问题解决能力呈正相关。
Qwen 3采用创新的混合架构设计,能够根据任务复杂度自动调节处理模式。在处理复杂问题时,模型会启动深度推理模式;面对简单查询时,则可快速响应。这种自我核查机制类似于OpenAI的o3模型,但会带来一定的延迟开销。
该模型支持119种语言,训练数据集规模达到近36万亿个标记(tokens)。其中,100万个标记约等同于75万个单词。训练数据来源广泛,包括教科书、问答对、代码片段等多类型内容。
在多项基准测试中,Qwen 3展现出优异性能。其最大规模模型Qwen-3-235B-A22B在编程竞赛平台Codeforces、数学能力测试AIME以及推理能力评估BFCL等测试中,均超越了OpenAI的o3-mini模型。
目前公开发布的最大规模版本Qwen3-32B,其性能可与包括深度求索(DeepSeek)的R1在内的多个专有和开源AI模型相媲美。在LiveBench等准确性基准测试中,该模型超越了OpenAI的o1模型。
Qwen 3在工具调用、指令遵循和数据格式复制等方面表现优异。除了可直接下载使用外,用户还可通过Fireworks AI和Hyperbolic等云服务提供商访问Qwen 3的服务。