机器学习建模的步骤,机器学习建模的一般流程

首页 > 经验 > 作者:YD1662022-10-30 05:22:05

Trajectory Transformer, Figure 4

Transformer 强大的序列建模能力带来了更高的长序列建模精度,下图展示了 TT 在 100 步以上的预测仍然保持了高精度,而遵循马尔可夫性质的单步预测模型很快因为预测误差叠加的问题崩溃了。

机器学习建模的步骤,机器学习建模的一般流程(13)

Trajectory Transformer, Figure 2

TT 虽然在具体建模和预测方面和传统方法有所不同,它提供的预测能力还是给未来融入强化学习的其它成果留出了很好的抓手。然而 TT 在预测速度上有一个重要问题:因为需要建模整个序列的分布,它将序列中所有的元素按照维度进行离散化,这也就是说一个 100 维的状态就需要占用序列中的 100 个位置,这使得被建模的序列的实际长度很容易变得特别长。而对于 Transformer,它关于序列长度 N 的运算复杂度是

机器学习建模的步骤,机器学习建模的一般流程(14)

,这使得从 TT 中采样一个对未来的预测变得非常昂贵。哪怕 100 维以下的任务 TT 也需要数秒甚至数十秒来进行一步决策,这样的模型很难被投入实时的机器人控制或者在线学习之中。

Gato

Gato 是 Deepmind 发表的“通才模型”,其实就是一个跨模态多任务生成模型。用同一个 Transformer 它可以完成从自然语言问答,图片描述,玩电子游戏到机器人控制等各类工作。在针对连续控制(continous control)的建模方面 Gato 的做法基本上和 TT 类似。只不过 Gato 严格意义并不是在做强化学习,它只是建模了专家策略产生的序列数据,然后在行动时它只需要采样下一个动作,其实是对专家策略的一种模仿。

机器学习建模的步骤,机器学习建模的一般流程(15)

Gato Blog

其它序列生成模型:扩散模型

最近在图片生成领域扩散模型(Diffusion Model)可以说是大红大紫,DALLE-2 和 Stable Diffusion 都是基于它进行图片生成的。Diffuser 就将这个方法也运用到了离线强化学习当中,其思路和 TT 类似,先建模序列的条件分布,然后根据当前状态采样未来可能的序列。

Diffuser 相比 TT 又拥有了更强的灵活性:它可以在设定起点和终点的情形下让模型填充出中间的路径,这样就能实现目标驱动(而非最大化奖励函数)的控制。它还可以将多个目标和先验的达成目标的条件混合起来帮助模型完成任务。

机器学习建模的步骤,机器学习建模的一般流程(16)

上一页12345下一页

栏目热文

文档排行

本站推荐

Copyright © 2018 - 2021 www.yd166.com., All Rights Reserved.