中信建投证券CHINA SECURITIES计算机行业动态报告DeepSeek模型密集更新,高性能+低成本促进用户数高增L.1第一问:DeepSeek的用户量趋势?DeepSeek坚定开源路线,密集更新MbE、推理、多模态模型。近期,DeepSeek连续发布并开源多个大模型,其低成本、高性能的特性迅速引发全球用户的关注。其中,2024年12月26日发布的DeepSeek-V3为671B参数的自研MoE模型,运行时仅需激活37B,在14.8 T token的数据上进行了预训练:2025年1月20日发布的DeepSeek-R1为660B的高性能推理模型,对用户开放思维链输出,允许用户通过蒸馏技术借助Rl训练其他模型:2025年1月27日,DeepSeek在Hugging Face平台上传了视觉模型Janus-Pro和多模态理解模型JanusFlow-l.3B,进一步在图像领域发力。表I:DeepSeek关键横型发布时间时间模型名称模型类型简介2023年DeepSeek Coder代码大模型覆盖1B,7B,33B多个尺寸,包含Base模型和指令调优模型,帮11月2日助用户进行代码生成、ug修复、数据分析等工作。包含7B和67B的基础模型及指令微调版本,同时开放下载训练中2023年通用大模型途的9个模型checkpoints,在推理、编码、数学和中文理解等方11月29日DeepSeek LLM面表现出色。2024年1月11日DeepSeek MoE通用大模型基于自研全新MoE架构,在2B、16B、145B(发布时尚处于早期实验)三个尺度模型上均实现效果领先,显著优化计算量。2024年以DeepSeek--Coder--V1.57B为基础,在数学相关token以及自然2月6日DeepSeek Math数学推理模型语言和代码数据上进行500 3 tokens的预训练,在数学测试中取得较好表现2024年3月11日DeepSeek-VL多摸态大模型对训练数据、模型架构和训练策略进行联合拓展,其1.3B和7B模型能高效处理高分耕率图像,捕捉关键语义和细节信息。2024年DeepSeek-V2通用大模型总参数236B,每个token激活21B,在8.1万亿token的语料5月7日库上预训练,支持128 K tokens,大幅节省训练成本。从DeepSeek-V2中间检查点开始,进一步预训练6万亿token,2024年DeepSeek-Coder-V2通用大模型增强了编码和数学推理能力,包含236B和16B两种参数规模,在编6月17日码和数学基准测试中超越主流闭源模型。2024年DeepSeek-V12多模态大模型覆盖3B、16B、27B多个尺寸,通过DeepSeek-MoE架构配合动态切12月13日图,支持视觉定位、梗图解析、OCR、故事生成等任务。2024年通用大模型自研MoE模型,671B参数,每个token激活37B,在14.8T12月26日DeepSeek-V3token上进行了预训练,性能对齐海外领军闭源模型。2025年660B模型,在后训练阶段大规模使用了强化学习技术,在仅有极少1月20日DeepSeek-RI推理大模型标注数据的情况下,极大提升了模型推理能力:对用户开放思维链输出,允许用户通过蒸馏技术借助R1训练其他模型。2025年包括7B和1.5B两个模型版本,采用新颖的自回归框架,统一了多1月27日Janus-Pro多模态大模型模态理解和生成,可适配视觉问答、图像标注等多模态场景。资料米源,DeepSeek公众号,中信建投DeepSeek Web端与APP端访问量持续增长,春节信息传播下沉加速产品关注度裂变。Web端,2024年10月至2024年12月DeepSeek访问量分别为245/422/1101万,其中11月和12月分别同比增长72.24%/160.90%,12月受全新开源模型V3促进访问量大幅增长:APP端,DeepSeek2025年1月10日(官方公众号1月15日正式发文)在iOS/Android上线官方APP,而后受益于1月20日发布R1模型的高性能、低成本,叠加春节期间信息传播下沉,产品关注度呈裂变式增长。具体而言,DeepSeek APP安卓iOS端国区单日下载量均于1月26请务必阅读正文之后的免责条款和声明。
暂无评论内容