。因为建模了后续序列的分布,TT 其实就成为了一个序列生成模型。通过在生成的序列中寻找拥有更好的估值(value estimation)的序列,TT 就可以输出一个“最优规划”。至于寻找最优序列的方法,TT 用了一种自然语言常用的方法:beam search 的一种变种。基本上就是永远保留已经展开的序列中最优的一部分序列
,然后在它们的基础上寻找下一步的最优序列集
。
从强化学习的角度来说,TT 没有 DT 那么离经叛道。它的有趣之处在于(和 DT 一样)完全抛弃了原本强化学习中马尔可夫决策过程(Markov Decision Process)的因果图结构。之前的基于模型的方法比如,PETS, world model, dramerv2 等,都会遵循马尔可夫过程(或者隐式马尔可夫)中策略函数、转移函数、奖励函数等的定义,也就是状态分布的条件是上一步的状态,而动作、奖励、价值都由当前的状态决定。整个强化学习社区一般相信这样能提高样本效率,不过这样的图结构其实也可能是一种制约。自然语言领域从 RNN 到 Transformer 以及计算机视觉领域 CNN 到 Transformer 的转变其实都体现了:随着数据增加,让网络自己学习图结构更有利于获得表现更好的模型。
DreamerV2, Figure 3
由于 TT 基本上把所有序列预测的任务都交给了 Transformer,Transformer 就能更加灵活地从数据中学习出更好的图结构。如下图,TT 建模出的行为策略根据不同的任务和数据集展现出不同的图结构。图左对应了传统的马尔可夫策略,图右对应了一种动作滑动平均的策略。