周三,阿里巴巴发布全新开源模型通义千问2.5-Omni-7B(Qwen2.5-Omni-7B),并基于该模型为通义千问对话(Qwen Chat)平台增添语音和视频聊天功能。该模型采用Apache 2.0许可证开源发布。
通义千问2.5-Omni是通义千问(Qwen)系列最新的旗舰级端到端多模态模型。该模型采用创新的"思考者-表达者(Thinker-Talker)"架构,可实现实时响应。其中,思考者部分由Transformer解码器构成,负责信息处理;表达者部分采用双轨自回归Transformer解码器,负责信息输出。
模型具备多模态感知能力,可无缝处理文本、图像、音频和视频信息,并通过文本和语音合成提供实时流式响应。
在与通义千问2.5-VL-7B(Qwen2.5-VL-7B)、通义千问2-Audio(Qwen2-Audio)和Gemini-1.5-pro等模型的对比测试中,通义千问2.5-Omni在语音识别、翻译、音视频理解和语音生成等多模态任务中展现出领先性能。
模型相关论文和代码已在GitHub平台发布,AI模型及演示版本可在Hugging Face平台获取。此外,阿里巴巴上月推出的QwQ-Max-Preview模型专注于数学和编程任务,在LiveCodeBench排行榜上超越OpenAI模型表现,预计将推出本地部署版本和移动应用。
阿里巴巴承诺未来三年投入超过520亿美元发展AI技术,预计将持续推出创新成果。