机器学习建模的步骤（机器学习建模的一般流程） - 原点资讯

。因为建模了后续序列的分布，TT 其实就成为了一个序列生成模型。通过在生成的序列中寻找拥有更好的估值（value estimation）的序列，TT 就可以输出一个“最优规划”。至于寻找最优序列的方法，TT 用了一种自然语言常用的方法：beam search 的一种变种。基本上就是永远保留已经展开的序列中最优的一部分序列

机器学习建模的步骤,机器学习建模的一般流程(9)

，然后在它们的基础上寻找下一步的最优序列集

机器学习建模的步骤,机器学习建模的一般流程(10)

。

从强化学习的角度来说，TT 没有 DT 那么离经叛道。它的有趣之处在于（和 DT 一样）完全抛弃了原本强化学习中马尔可夫决策过程（Markov Decision Process）的因果图结构。之前的基于模型的方法比如，PETS, world model, dramerv2 等，都会遵循马尔可夫过程（或者隐式马尔可夫）中策略函数、转移函数、奖励函数等的定义，也就是状态分布的条件是上一步的状态，而动作、奖励、价值都由当前的状态决定。整个强化学习社区一般相信这样能提高样本效率，不过这样的图结构其实也可能是一种制约。自然语言领域从 RNN 到 Transformer 以及计算机视觉领域 CNN 到 Transformer 的转变其实都体现了：随着数据增加，让网络自己学习图结构更有利于获得表现更好的模型。

机器学习建模的步骤,机器学习建模的一般流程(11)