2019年2月,OpenAI推出了15亿参数的GPT-2,能够生成连贯的文本段落,做到初步的阅读理解、机器翻译等。
紧接着,英伟达推出了83亿参数的威震天Megatron-LM,谷歌推出了110亿参数的T5,微软推出了170亿参数的图灵Turing-NLG。
2020年6月,大模型来到了一个分水岭,OpenAI以1750亿参数的GPT-3,直接将参数规模刷到千亿级别,直逼人类神经元的数量。作诗、聊天、生成代码等等,无所不能。
在沉寂了一段时间之后,微软和英伟达在2021年10月联手发布了5300亿参数的Megatron-Turing自然语言生成模型(MT-NLG)。同时夺得单体Transformer语言模型界「最大」和「最强」两个称号。
除了千亿规模的稠密单体模型,还有万亿规模的稀疏混合模型。
2021年1月,谷歌推出了1.6万亿参数的Switch Transformer。12月,这个记录被达摩院的M6模型的10万亿参数打破,大模型参数直接提升了一个量级,而且达摩院只用了512张GPU进行训练。