中文大模型基准测评2024年度报告

manyouzhe

1年前发布

27.37MB89页06115

第1页 / 共89页

第2页 / 共89页

第3页 / 共89页

第4页 / 共89页

第5页 / 共89页

该文档为免费文档，您可直接下载完整版进行阅读

文章版权归作者所有，未经允许请勿转载。

THE END

智慧城市

文本预览

报告摘要（一）》SuperCLUE中文大候型综合性测评基准SuperCLUE模型象限(2024)·OpenAl爱市o1正式根，大■全球买用生义智卓铺液导害01正式版的推出进一步拉大了与其他模型的差距。经12月测评，01以804分大幅领跑全al一的章球，较ChatGPT-4o-aes高10.2分，较国内最好模型高12.1分。力sw像ChaGIT4 o-latet=垂mi20小Fag·■内央大a进迅速，使为近ChatGPT-.4o-latestD区p6eV3m度方垂●oubae-pro33412157Qem-am lain国内顶尖大模型进展迅速，其中DeepSeek-V3和SenseChat5.5 atest取得68.3分表现出3mhm55 atest●S4rg21A量星色，超过Claude3.5 Sonneti和Gemini-2.0-Flash-Exp,较为接近ChatGPT-4o-aest《仅G4212x93 hineo-olpo◆kc5k25m度t南G15M4月N相差19分）。NbCale Vvse25-T2B-lemtnciRNIE4DTa-SK-Laten●●·■内回在推速责和性价比方■很有贵◆力PT.4o-mirigye●Tla2-a*nw0垂pean-Turbe时国内模型DeepSeek-V3和Qwen2.5-32B-nstruct在推理效能方面表现出色，在高水平T2Baichuan4m(ven2.5-7B-bmingioGLY-498-Cheuma能力的基础上，保持极快的推理速度。在性价比方面，DeepSeek-V3,Qwen2.5-取留火a些72B-nstruct(阿里云)在高水平能力的基础上，保持低成本的AP价格。VLQ:Q组标k判南●3Daa27酒GmK事·得小港MM34w0i1子4ni国内端侧小模型进展迅速，部分小尺寸模型表现要好于上一代的稍大尺寸模型，如●Mn4 -7-les401醋力四素者情术领豫者基础镜力食Qwen2.5-3B-Instruct,MiniC PM3-4B,均展现出很高的性价比和落地可行性。来源：SuperCLUE.2025年1月8日3

喜欢就支持一下吧

请登录后发表评论

登录注册

暂无评论内容