2,收集训练数据
在整个训练过程中,我们希望存储我们的所有得到的信息。我们将用它作为深度Q学习模型的训练数据。因此,对于我们所采取的每一个操作,我们都会将<s,a,r,s'>以及game_over标志一起存储。深度Q学习模型学习的目标标签是每个动作的最终反馈信息。这也是我们回归问题的实数。
3.训练过程
现在让我们开始训练我们的深度Q学习模型。首先,我们得在探索(在游戏中采取随机行动)和开发(采用我们的模型预测行动)中保持平衡。这样,我们就可以在游戏中进行反复试验,以获得不同的体验。而参数epsilon就是平衡探索和开发的呈指数下降的因素。起初,当我们什么都不知道的时候,我们想做更多的探索。然而随着经验的增加,我们现在更多是想做开发。