随着DeepSeek AI的发布,专家混合(Mixture-of-Experts, MoE)大语言模型结构引发广泛关注。
中国AI公司DeepSeek推出了采用MoE技术的R1模型,这是一个类似ChatGPT的大语言模型。该公司以显著降低的成本开发出高性能AI模型,打破了"只有投入大量昂贵硬件才能开发强大模型"的传统认知。这一突破性进展导致硬件供应商英伟达(Nvidia)股价大跌,多家美国主要AI公司股票也随之下跌。
专家混合方法起源于20世纪90年代初,不同于传统生成式AI采用的整体结构设计,MoE将系统分割成多个专门的组件。每个组件作为"专家",负责处理特定领域的任务。系统的核心是网关功能,它需要准确快速地将用户输入分配给相应的专家组件。
主要优势:
主要挑战:
目前多个知名大语言模型已采用MoE架构,包括Mistral的Mixtral、Meta的NLLB MoE等。DeepSeek除采用MoE架构外,还结合了知识蒸馏和强化学习技术。虽然MoE并非完美无缺,但DeepSeek的成功必将推动这一技术在全球AI领域获得更广泛应用。