计算机-DeepSeek核心十问十答

manyouzhe

1年前发布

4.60MB27页07211

第1页 / 共27页

第2页 / 共27页

第3页 / 共27页

第4页 / 共27页

第5页 / 共27页

该文档为免费文档，您可直接下载完整版进行阅读

文章版权归作者所有，未经允许请勿转载。

THE END

智慧城市

文本预览

中信建投证券CHINA SECURITIES计算机行业动态报告DeepSeek模型密集更新，高性能+低成本促进用户数高增L.1第一问：DeepSeek的用户量趋势？DeepSeek坚定开源路线，密集更新MbE、推理、多模态模型。近期，DeepSeek连续发布并开源多个大模型，其低成本、高性能的特性迅速引发全球用户的关注。其中，2024年12月26日发布的DeepSeek-V3为671B参数的自研MoE模型，运行时仅需激活37B,在14.8 T token的数据上进行了预训练：2025年1月20日发布的DeepSeek-R1为660B的高性能推理模型，对用户开放思维链输出，允许用户通过蒸馏技术借助Rl训练其他模型：2025年1月27日，DeepSeek在Hugging Face平台上传了视觉模型Janus-Pro和多模态理解模型JanusFlow-l.3B,进一步在图像领域发力。表I:DeepSeek关键横型发布时间时间模型名称模型类型简介2023年DeepSeek Coder代码大模型覆盖1B,7B,33B多个尺寸，包含Base模型和指令调优模型，帮11月2日助用户进行代码生成、ug修复、数据分析等工作。包含7B和67B的基础模型及指令微调版本，同时开放下载训练中2023年通用大模型途的9个模型checkpoints,在推理、编码、数学和中文理解等方11月29日DeepSeek LLM面表现出色。2024年1月11日DeepSeek MoE通用大模型基于自研全新MoE架构，在2B、16B、145B(发布时尚处于早期实验)三个尺度模型上均实现效果领先，显著优化计算量。2024年以DeepSeek--Coder--V1.57B为基础，在数学相关token以及自然2月6日DeepSeek Math数学推理模型语言和代码数据上进行500 3 tokens的预训练，在数学测试中取得较好表现2024年3月11日DeepSeek-VL多摸态大模型对训练数据、模型架构和训练策略进行联合拓展，其1.3B和7B模型能高效处理高分耕率图像，捕捉关键语义和细节信息。2024年DeepSeek-V2通用大模型总参数236B,每个token激活21B,在8.1万亿token的语料5月7日库上预训练，支持128 K tokens,大幅节省训练成本。从DeepSeek-V2中间检查点开始，进一步预训练6万亿token,2024年DeepSeek-Coder-V2通用大模型增强了编码和数学推理能力，包含236B和16B两种参数规模，在编6月17日码和数学基准测试中超越主流闭源模型。2024年DeepSeek-V12多模态大模型覆盖3B、16B、27B多个尺寸，通过DeepSeek-MoE架构配合动态切12月13日图，支持视觉定位、梗图解析、OCR、故事生成等任务。2024年通用大模型自研MoE模型，671B参数，每个token激活37B,在14.8T12月26日DeepSeek-V3token上进行了预训练，性能对齐海外领军闭源模型。2025年660B模型，在后训练阶段大规模使用了强化学习技术，在仅有极少1月20日DeepSeek-RI推理大模型标注数据的情况下，极大提升了模型推理能力：对用户开放思维链输出，允许用户通过蒸馏技术借助R1训练其他模型。2025年包括7B和1.5B两个模型版本，采用新颖的自回归框架，统一了多1月27日Janus-Pro多模态大模型模态理解和生成，可适配视觉问答、图像标注等多模态场景。资料米源，DeepSeek公众号，中信建投DeepSeek Web端与APP端访问量持续增长，春节信息传播下沉加速产品关注度裂变。Web端，2024年10月至2024年12月DeepSeek访问量分别为245/422/1101万，其中11月和12月分别同比增长72.24%/160.90%，12月受全新开源模型V3促进访问量大幅增长：APP端，DeepSeek2025年1月10日（官方公众号1月15日正式发文)在iOS/Android上线官方APP,而后受益于1月20日发布R1模型的高性能、低成本，叠加春节期间信息传播下沉，产品关注度呈裂变式增长。具体而言，DeepSeek APP安卓iOS端国区单日下载量均于1月26请务必阅读正文之后的免责条款和声明。

喜欢就支持一下吧

请登录后发表评论

登录注册

暂无评论内容