计算机-行业专题报告-DeepSeek-R1：强化学习-知识蒸馏，比肩o1-20250122-财通证券

manyouzhe

1年前发布

1.52MB13页06610

第1页 / 共13页

第2页 / 共13页

第3页 / 共13页

第4页 / 共13页

第5页 / 共13页

该文档为免费文档，您可直接下载完整版进行阅读

文章版权归作者所有，未经允许请勿转载。

THE END

智慧城市

文本预览

财通证养CAITONG SECURITIES行业专题报告/证券研究报告1 DeepSeek-R1发布，对标OpenAI o1正式版DeepSeek-Rl正式发布。1月20日，DeepSeek正式发布了一系列DeepSeek-Rl模型，并上传R1系列的技术报告和各种信息。DeepSeek此次共发布三组模型：DeepSeek-Rl-Zero:大规模使用强化学习(RL)技术，没有任何监督微调(SFT):●DeepSeek-Rl:在强化学习前融入冷启动数据，多阶段训练：●DeepSeek-Rl-Distill系列：DeepSeek-Rl中蒸馏推理能力到小型密集模型，参数规模分别为1.5B、7B、8B、14B、32B和70B。图1.DeepSeek发布DeepSeek-R1模型我是DeepSeek,很高兴见到你！我可以你写代、读文件、写作各种意内容请把的任务交给吧哈DeepSeek发送消息调用格型D6p5okR1,解大用可型阁深明考由取问质素@个数鸳来源：DeepSeek官同，财通证泰研究所DeepSeek.-RI樸型推理能力优异，比肩OpenAIo1正式版，DeepSeek-R1在AME2024上获得了79.8%的成绩，略高于0 penAI-ol-1217。在MATH-500上，它获得了97.3%的惊人成绩，表现与OpenA-ol-1217相当，并明显优于其他模型。在编码相关的任务中，DeepSeek-Rl在代码竞赛任务中表现出专家水平，在Codeforces上获得了2029El0评级，在竞赛中表现优于96.3%的人类参与者。对于工程相关的任务，DeepSeek-R1的表现略优于OpenA-ol-l217。图2.DeepSeek-R1与OpenAI同类产品的基准测试比较DerpSeek-R1 OpenAl-01-1217 DeepSeek-I1-32BOpenAl-o1-minl DeepSeek-V360AIME 2024CodeforcesGPOA DiamondMATH-500MMLUSWE-bench Verified1引数据来源：DeepSeek官方，财通证泰研究所谨请参阅尾页重要声明及财通证券股票和行业评级标准

喜欢就支持一下吧

请登录后发表评论

登录注册

暂无评论内容