平安证券计算机·行业动态跟踪报告DeepSeek-V3和DeepSeek-R1陆续发布,国产大模型能力已可比肩海外领军大模型■DeepSeek-V32024年12月26日,杭州AI公司深度求粼DeepSeek正式发布DeepSeek-V3大模型首个版本并同步开源。根据DeepSeek网站信息,DeepSeel-V3为自研MoE模型,671B参数,激活37B,在14.8 T tokens上进行了预训练。DeepSeek-V3多项评测成绩超越了Qwen2.5-72B和Uama3.1-405B等其他开源模型,并在性能上和世界顶尖的闭源模型GPT-4o以及Claude-3.5-Sonnet相当。具体而言:>百科知识方面:DeepSeek-V3在知识类任务(MMLU,MMLU-Pro,GPQA,SimpleQA)上的水平相比前代DeepSeek-V2.5明显提升,接近当前表现最好的模型Claude-3.5-Sonnet-1022。长文本方面:在长文本测评中,DROP、FRAMES和LongBench2上,DeepSeek-V3平均表现超越其他模型。代码方面:DeepSeek-V3在算法类代码场景(Codeforces,远远领先于市面上已有的全部非o1类模型;并在工程类代码场景(SWE-Bench Verified)逼近Claude-3.5-Sonnet-1022。数学:在美国数学竞赛(AIME2024,ATH)和全国高中数学联赛(CNMO2024)上,DeepSeek-V3大幅超过了所有开源闭源模型。中文能力方面:DeepSeek-V3与Qwen2.5-72B在教育类测评C-Eval和代词消歧等评测集上表现相近,但在事实知识C-SimpleQA上更为领先。图表1 DeepSeek-V3大模型与海外领军开闭源大模型的测试比较DeepSeek-Qwen2.5Llama3.1Claude.35.GPT-4o测试集V372B-Inst.405B-lnst,S0mnet-10220513模型架构MoEDenseDense#激活参数37B72B405B·总参数671B72B405BMMLU (EM88.585388.688.387.2MMLU-Redux (EM)89.185.686.288.988MMLU-Pro(EM)75.971.673.37872.6DROP (3-shot F1)91.676.788.788.3837英文IF-Eval (Prompt Serict)86.184.18686.584.3GPQA-Diamond (Pass@1)59.14951.16549.9SimpleQA Correct)24.99.117.128.438.2FRAMES(Ace.)73.369.87072.580.5LongBench v2 (Acc.)48.739.436.14148.1HumanEval-Mul (Pas@1)82.677377281.780.5LiveCodeBench(Pass@1-COT)40.531.128.436.333.4LiveCodeBench (Pass1)37.628.730.132.834.2代码Codeforces (Percentile)51.624.825.320.323.6SWE Verified (Resolved)4223.824.550.838.8Aider-Edit (Acc.)79.765.463.984.272.9Aider-Polyglot (Ace.)49.67.65.845.316AIME 2024 (Pass@1)39.223.323.3169.3数学MATH-500 (EM)90.28073.878.374.6CNMO 2024 (Pas@1)43.215.96.813.110.8CLUEWSC (EM)90.991.484.785.487.9中文C-Eval (EM)86.586.161.576.776C-SimpleQA(Correct)64.148.450.451.359.3资料来总:DeepSeek宫网,平安证券研究所请通过合法途径获取本公司研究报告,如经由未经许可的果道获得研究报告,请慎重使用并注意阅法研究报告尾页的声明内客。3/16
暂无评论内容