周二,中国人工智能公司DeepSeek宣布推出用于混合专家模型(Mixture of Experts,MoE)训练和推理的通信库DeepEP。该产品是DeepSeek开源技术周期间计划发布的五个开源代码库之一。
DeepEP专门设计用于优化图形处理单元(GPU)与采用MoE架构的机器学习模型之间的通信效率。该库配备了针对非对称域带宽转发优化的内核组件,可实现NVLink和RDMA连接之间的高效数据传输。此外,DeepEP支持8位浮点数(FP8)运算,有效提升计算速度并降低内存占用。
在搭载CX7 InfiniBand RDMA网卡的NVIDIA H800 GPU平台上,DeepEP展现出卓越性能:
DeepSeek已在GitHub平台提供完整的技术文档与配置指南。作为开源计划的一部分,继DeepEP之前,公司已发布针对Hopper GPU优化的解码内核FlashMLA。该内核专门用于处理可变长度序列,支持BF16格式,并配备块大小为64的分页KV缓存。在H800 GPU上,FlashMLA在内存受限场景下可达3000 GB/s速度,计算受限场景下可达580 TFLOPS。
DeepSeek的开源策略获得业界广泛认可。工程师斯蒂芬·皮门特尔(Stephen Pimentel)在X平台表示:"DeepSeek有效反驳了关于其训练程序的质疑。"近期,公司发布的DeepSeek-R1和DeepSeek-V3模型引发业界关注,这些开源模型以远低于竞争对手的成本实现了领先性能。