报告摘要(一)》SuperCLUE中文大候型综合性测评基准SuperCLUE模型象限(2024)·OpenAl爱市o1正式根,大■全球买用生义智卓铺液导害01正式版的推出进一步拉大了与其他模型的差距。经12月测评,01以804分大幅领跑全al一的章球,较ChatGPT-4o-aes高10.2分,较国内最好模型高12.1分。力sw像ChaGIT4 o-latet=垂mi20小Fag·■内央大a进迅速,使为近ChatGPT-.4o-latestD区p6eV3m度方垂●oubae-pro33412157Qem-am lain国内顶尖大模型进展迅速,其中DeepSeek-V3和SenseChat5.5 atest取得68.3分表现出3mhm55 atest●S4rg21A量星色,超过Claude3.5 Sonneti和Gemini-2.0-Flash-Exp,较为接近ChatGPT-4o-aest《仅G4212x93 hineo-olpo◆kc5k25m度t南G15M4月N相差19分)。NbCale Vvse25-T2B-lemtnciRNIE4DTa-SK-Laten●●·■内回在推速责和性价比方■很有贵◆力PT.4o-mirigye●Tla2-a*nw0垂pean-Turbe时国内模型DeepSeek-V3和Qwen2.5-32B-nstruct在推理效能方面表现出色,在高水平T2Baichuan4m(ven2.5-7B-bmingioGLY-498-Cheuma能力的基础上,保持极快的推理速度。在性价比方面,DeepSeek-V3,Qwen2.5-取留火a些72B-nstruct(阿里云)在高水平能力的基础上,保持低成本的AP价格。VLQ:Q组标k判南●3Daa27酒GmK事·得小港MM34w0i1子4ni国内端侧小模型进展迅速,部分小尺寸模型表现要好于上一代的稍大尺寸模型,如●Mn4 -7-les401醋力四素者情术领豫者基础镜力食Qwen2.5-3B-Instruct,MiniC PM3-4B,均展现出很高的性价比和落地可行性。来源:SuperCLUE.2025年1月8日3
暂无评论内容