给在训练过程中,给定前面的句子,模型需要预测下一个单词。
而GPT-3的计算主要发生在其96个Transformer解码层中:
这96层就是GPT3的「深度」,每一层Transformer都有18亿参数参与计算。
并且因为GPT3在大量数据上预训练,因此泛化性能很强,所以只需在下游任务微调,就可达到很高的性能。
GPT-3微调演示图
机器学习的本质决定了ChatGPT等语言模型惊人的学习和产出能力。
但是,正如马库斯所说,ChatGPT等聊天机器人没有理解现实世界与心理活动的能力。
即使ChatGPT能码一万篇黄文,不会读心的机器人,要靠什么把握人类呢?
参考资料:
https://www.reddit.com/r/AO3/comments/z9apih/sudowrites_scraping_and_mining_ao3_for_its/
https://www.theverge.com/2022/12/2/23489706/one-of-the-largest-ai-language-models-has-taught-itself-the-mechanics-of-werewolf-porn
https://www.bilibili.com/video/BV1kK41167fo/?spm_id_from=333.337.search-card.all.click&vd_source=bbe229c46da2b87de5f774f69cfaf6f8
https://jalammar.github.io/how-gpt3-works-visualizations-animations/