后的大数据浙江大学ZHEJIANG UNIVERSITYGPT训练数据规模史无前例维基杂志书籍RedditCommon其他从2018年的GPT-1百科期刊链接Crawl数据总计到2020年的GPT-3,GPT-14.64.6模型预训练数据量从4.6GB增加到了45TBGPT-2404045TB相当于三千万本《西游记》GPT-311.42110150570753The Pile v1611824463227167825主要模型数据集包括:Megatron-11B11.44.638107161-维基百科数据集(庞大的客观知识)MT-NLG6.411877639831271374-书籍(故事讲述能力与反应)Gopher12.52100164.43450482310550~杂志期刊(语言生成的严谨)Github代码等其他数据(逻辑推理)表:主要数据集大小汇总,以GB为单位。公开的数据集以粗体表示,确定的数据以斜体表示。Common Crawl数据集过滤之前为45T来源:OpenAll团队,Language Models are Few-Shot Learners,htps:/arxiv.org/abs/2005.14165,2022年7月22日
暂无评论内容