阿里发布多模态AI模型通义千问2.5 多模态AI模型将如何改变人机交互方式？通义千问2.5的技术突破对AI行业有何影响？开源AI模型对技术创新有何推动作用？

新功能发布

周三，阿里巴巴发布全新开源模型通义千问2.5-Omni-7B（Qwen2.5-Omni-7B），并基于该模型为通义千问对话（Qwen Chat）平台增添语音和视频聊天功能。该模型采用Apache 2.0许可证开源发布。

技术特点

通义千问2.5-Omni是通义千问（Qwen）系列最新的旗舰级端到端多模态模型。该模型采用创新的"思考者-表达者（Thinker-Talker）"架构，可实现实时响应。其中，思考者部分由Transformer解码器构成，负责信息处理；表达者部分采用双轨自回归Transformer解码器，负责信息输出。

模型具备多模态感知能力，可无缝处理文本、图像、音频和视频信息，并通过文本和语音合成提供实时流式响应。

性能表现

在与通义千问2.5-VL-7B（Qwen2.5-VL-7B）、通义千问2-Audio（Qwen2-Audio）和Gemini-1.5-pro等模型的对比测试中，通义千问2.5-Omni在语音识别、翻译、音视频理解和语音生成等多模态任务中展现出领先性能。

开源与应用

模型相关论文和代码已在GitHub平台发布，AI模型及演示版本可在Hugging Face平台获取。此外，阿里巴巴上月推出的QwQ-Max-Preview模型专注于数学和编程任务，在LiveCodeBench排行榜上超越OpenAI模型表现，预计将推出本地部署版本和移动应用。

阿里巴巴承诺未来三年投入超过520亿美元发展AI技术，预计将持续推出创新成果。

阿里发布多模态AI模型通义千问2.5 多模态AI模型将如何改变人机交互方式？ 通义千问2.5的技术突破对AI行业有何影响？ 开源AI模型对技术创新有何推动作用？

新功能发布

技术特点

性能表现

开源与应用

阿里发布多模态AI模型通义千问2.5 多模态AI模型将如何改变人机交互方式？通义千问2.5的技术突破对AI行业有何影响？开源AI模型对技术创新有何推动作用？