算力是大模型核心驱动力,推进A基础设施新范式演进、百度智能无(蓝色:语言模型:绿色:中文语言模型:橘色:多模态模型:黄色:视觉模型)GPT375阳9Ee’◆·6w-MOE(1581GPT21DALL●VIT(30M)●VT-(vV2sBERT(340M)05ENE20(330M10-710107●ENE11wComputeDataset SizeParameters●PF-days,non-embedaingtokensnon-ent0d灯rgo27St20189/820191022D20112压202Y1231hred,et主2020模型参数演进Scaling Law三要素新摩尔定律以GPT-3为例,1750亿参数模型、3000亿词语,计算量314ZFL0PS计算规模大模型参数大成本投入大GPT3:314 ZFLOPSGPT3:175B参数Gpr3:数以亿计的训练和推单卡A100训练需要32年350G+存储空间理成本分布式架构us时代的万卡互联算精整体向低精度迁移,混合精度是常态存储瓶颈训练显存,推理服务,芯片存算比
暂无评论内容