Decision Transformer
DT 的做法是建模一个从过往数据和价值到动作的映射 (return-conditioned policy),也就是建模了一个动作的条件概率的数学期望
。这种思路很类似于 Upside Down RL[11],不过很有可能背后的直接动机是模仿 GPT2/3 那种根据提示词(prompt) 完成下游任务的做法。这种做法的一个问题是要决定什么是最好的目标价值
没有一个比较系统化的方法。然而 DT 的作者们发现哪怕将目标价值设为整个数据集中的最高 return,最后 DT 的表现也可以很不错。
Decision Transformer, Figure 1
对于有强化学习背景的人来说,DT 这样的方法能取得很强的表现是非常反直觉的。如果说 DQN,策略梯度(Policy Gradient)这类方法还可以只把神经网络当成一个能做插值泛化的拟合函数,强化学习中的策略提升、估值仍然是构造策略的核心的话。DT 就完全可以说是以神经网络为核心的了,背后它如何把一个可能不切实际的高目标价值联系到一个合适的动作的整个过程都完全是黑箱。DT 的成功可以说从强化学习的角度来看有些没有道理,不过我觉得这也正是这种实证研究的魅力所在。笔者认为神经网络,或者说 Transformer 的泛化能力可能超乎整个 RL 社群之前的预期。
DT 在所有序列建模方法中也是非常简单的,几乎所有强化学习的核心问题都在 Transformer 内部被解决了。这种简单性是它目前最受青睐的原因之一。不过它黑盒的性质也导致我们在算法设计层面上失去了很多抓手,传统的强化学习中的一些成果很难被融入其中。而这些成果的有效性已经在一些超大规模的实验(如 AlphaGo, AlphaStar, VPT)中被反复证实了。
Trajectory Transformer
TT 的做法则更类似传统的基于模型的强化学习 (model-based RL) 的规划(planning)方法。在建模方面,它将整个序列中的元素都离散化,然后用了 GPT-2 那样的离散的自回归(auto-regressive)方式来建模整个离线数据集。这使得它能够建模任意给定除去 return-to-go 的序列的后续