机器学习建模的步骤,机器学习建模的一般流程

首页 > 经验 > 作者:YD1662022-10-30 05:22:05

。因为建模了后续序列的分布,TT 其实就成为了一个序列生成模型。通过在生成的序列中寻找拥有更好的估值(value estimation)的序列,TT 就可以输出一个“最优规划”。至于寻找最优序列的方法,TT 用了一种自然语言常用的方法:beam search 的一种变种。基本上就是永远保留已经展开的序列中最优的一部分序列

机器学习建模的步骤,机器学习建模的一般流程(9)

,然后在它们的基础上寻找下一步的最优序列集

机器学习建模的步骤,机器学习建模的一般流程(10)

从强化学习的角度来说,TT 没有 DT 那么离经叛道。它的有趣之处在于(和 DT 一样)完全抛弃了原本强化学习中马尔可夫决策过程(Markov Decision Process)的因果图结构。之前的基于模型的方法比如,PETS, world model, dramerv2 等,都会遵循马尔可夫过程(或者隐式马尔可夫)中策略函数、转移函数、奖励函数等的定义,也就是状态分布的条件是上一步的状态,而动作、奖励、价值都由当前的状态决定。整个强化学习社区一般相信这样能提高样本效率,不过这样的图结构其实也可能是一种制约。自然语言领域从 RNN 到 Transformer 以及计算机视觉领域 CNN 到 Transformer 的转变其实都体现了:随着数据增加,让网络自己学习图结构更有利于获得表现更好的模型。

机器学习建模的步骤,机器学习建模的一般流程(11)

DreamerV2, Figure 3

由于 TT 基本上把所有序列预测的任务都交给了 Transformer,Transformer 就能更加灵活地从数据中学习出更好的图结构。如下图,TT 建模出的行为策略根据不同的任务和数据集展现出不同的图结构。图左对应了传统的马尔可夫策略,图右对应了一种动作滑动平均的策略。

机器学习建模的步骤,机器学习建模的一般流程(12)

上一页12345下一页

栏目热文

文档排行

本站推荐

Copyright © 2018 - 2021 www.yd166.com., All Rights Reserved.