机器学习建模的步骤,机器学习建模的一般流程

首页 > 经验 > 作者:YD1662022-10-30 05:22:05

机器之心转载

来源:知乎

作者:蒋铮尧

本文将简单谈谈基于序列建模的强化学习方法。

大规模生成模型在近两年为自然语言处理甚至计算机视觉带来的巨大的突破。最近这股风潮也影响到了强化学习,尤其是离线强化学习(offline RL),诸如 Decision Transformer (DT)[1], Trajectory Transformer(TT)[2], Gato[3], Diffuser[4]这样的方法,将强化学习的数据(包括状态,动作,奖励和 return-to-go)当成了一串去结构化的序列数据,并将建模这些序列数据作为学习的核心任务。这些模型都可以用监督或自监督学习的方法来训练,避免了传统强化学习中比较不稳定的梯度信号。即便使用复杂的策略提升 (policy improvement) 和估值 (value estimation) 方法,它们在离线强化学习中都展现了非常好的表现。

本篇将简单谈谈这些基于序列建模的强化学习方法,下篇笔者将介绍我们新提出的,Trajectory Autoencoding Planner(TAP),一种用 Vector Quantised Variational AutoEncoder (VQ-VAE)进行序列建模并进行高效的隐动作空间(latent action space)内规划的方法。

Transformer 与强化学习

Transformer 架构 [5] 于 2017 年提出之后慢慢引发了自然语言处理的革命,后续的 BERT 和 GPT-3 逐渐将自监督 Transformer 这个组合不断推向新的高度,在自然语言处理领域不断涌现出少样本 (few-shot) 学习等性质的同时,也开始向诸如计算机视觉的领域不断扩散[6][7]。

然而对于强化学习来说,这个进程似乎在 2021 年之前都不是特别明显。在 2018 年,多头注意力机制也被引入强化学习 [8],这类工作基本都是应用在类似半符号化(sub-symbolic) 的领域尝试解决强化学习泛化的问题。之后这类尝试就一直处于一种不温不火的状态。根据笔者个人的体验,实际上 Transformer 在强化学习上也并没有展现出稳定的压倒性的优势,而且还很难训练。在 20 年我们的一个用 Relational GCN 做强化学习的工作中 [9],我们其实也在背后试过 Transformer,但是基本比传统结构(类似 CNN)差得多,很难稳定训练得到一个能用的 policy。为什么 Transformer 和传统在线强化学习(online RL)的相性比较差还是个开放问题,比如 Melo[10] 解释说是因为传统的 Transformer 的参数初始化不适合强化学习,在此我就不多做讨论了。

2021 年年中,Decision Transformer (DT)和 Trajectory Transformer(TT)的发表掀起了 Transformer 在 RL 上应用的新大潮。这两个工作的思路其实很直接:如果 Transformer 和在线强化学习的算法不是很搭,那要不干脆把强化学习当成一个自监督学习的任务?趁着离线强化学习这个概念也很火热,这两个工作都将自己的主要目标任务锁定为建模离线数据集(offline dataset),然后再将这个序列模型用作控制和决策。

对于强化学习来说,所谓序列就是由状态(state) s ,动作(action)

机器学习建模的步骤,机器学习建模的一般流程(1)

,奖励(reward) r 和价值(value) v 构成的轨迹(trajectory)

机器学习建模的步骤,机器学习建模的一般流程(2)

。其中价值目前一般是被用 return-to-go 来替代,可以被看成是一种蒙特卡洛估计(Monte Carlo estimation)。离线数据集就由这一条条轨迹构成。轨迹的产生和环境的动力学模型(dynamics)以及行为策略(behaviour policy)

机器学习建模的步骤,机器学习建模的一般流程(3)

有关。而所谓序列建模,就是要建模产生产生这个序列的概率分布(distribution),或者严格上说是其中的一些条件概率。

机器学习建模的步骤,机器学习建模的一般流程(4)

首页 12345下一页

栏目热文

文档排行

本站推荐

Copyright © 2018 - 2021 www.yd166.com., All Rights Reserved.