deepseekDeepSeek-V2:一种强大、经济且高效的混合专家语言模型DeepSeek-AIresearch@deepseek.comAbstract我们提出了DeepSeek-V2,这是一种强大的混合专家(MoE)语言模型,具有经济的训练成本和高效的推理能力。该模型包含总计236B个参数,其中每个toke仅激活21B个参数,并支特128 K tokens的上下文长度。DeepSeek-V2采用了创新架构,包括多头潜在注意力(Multi-headLatent Attention,MLA)和DeepSeekMoE。MLA通过将键值(KV)缓存显著压缩为潜在向量,确保了高效推理,而DeepSeekMoE通过稀疏计算,使得强大模型能够以较低成本进行训练。与DeepSeek67B相比,DeepSeek-V2取得了显著更强的性能,同时节省了42.5%的训练成本,将KV缓存减少了93.3%,并将最大生成吞吐量提升至5.76倍。我们在一个包含8.1Ttokens的高质量、多来源语料库上预训练DeepSeek-V2,并进一步进行监督微调(SFT)和强化学习(RL),以充分释放其潜力。评测结果表明,即使仅激活21B个参数,DeepSeek-V2及其聊天版本仍然在开源模型中实现了顶级性能。模型检查点可在https://github.com/deepseek-ai/DeepSeek-V2获取。Training Costs (K GPU Hours/T Te kens)80DeepSeek-V2★●LMA370BDeepSeek 678●DBRX●saving 42.5%of(n7ww)75Qw572 CommandDeepSeek-V2training costs●Qwen1.5 328DeepSeGrok-1●05010015020025030070KV c.che for ...(K B/Token)材i3 xtral意,7w●Command RLLaMA27●B65LL料A38BDeepSeek-V2reducing KV..he by 93.3%●●1LMA234LaMA165BLLMA 1 Family01002003004060LLaMA 2 F.mayMaximum Gener.tio.Thre ghput (Te ke/Sec)LLe铺A1P:m●桶lt七a4产:mLLaMA 1 33855LL:MA 2 138576%r maximim thre出身bPUt20406080100Activated Parameters (Billions)1000020900340g0400g50000a(b)Figure1|(a)MMLU准确率与激活参数数量的关系,对比不同开源模型。(b)DeepSeek67B(稠密)和DeepSeek-V2的训练成本和推理效率。
暂无评论内容