在这篇文章中,我们将看到如何在几分钟内训练自动赛车以及如何平稳控制。该方法基于强化学习(RL)并在仿真(Donkey Car模拟器)中呈现,旨在适用于现实世界。它建立在一家名为Wayve.ai的创业公司的工作基础之上,该公司专注于自动驾驶。
视频
简介:赛车比赛
自从几年前创建DIY Robocars以来,现在存在许多自动赛车比赛(例如Toulouse Robot Race,Iron Car ......)。在那些目标很简单:你有一辆赛车,它必须尽可能快地停留在轨道上,只给出车载摄像头的图像作为输入。
自驾车挑战是进入机器人技术的好方法。为了便于学习,开发了开源自动驾驶平台Donkey Car。在它的生态系统中,现在有一个以小型机器人为特色的统一模拟器。我们将测试这款Donkey Car的方法。
大纲在简要回顾了小型自动驾驶汽车比赛中使用的不同方法之后,我们将介绍强化学习的内容,然后详细介绍我们的方法。
用于自驾车比赛的方法:线路跟踪和行为克隆预测轨道中心的位置
作为一种方法,许多竞争者使用监督学习来重现人类驾驶员的行为。为此,人们需要在几圈内手动驾驶汽车,记录摄像机图像和来自操纵杆的相关控制输入。然后,训练模型以再现人类驾驶。然而,这种技术并不是非常强大,需要对每个轨道进行均匀的驱动和再训练,因为它的推广非常糟糕。
什么是强化学习(RL)以及我们为什么要使用它?鉴于上述问题,强化学习(RL)似乎是一个有趣的选择。
在强化学习设置中,代理(或机器人)作用于其环境并接收奖励作为反馈。它可以是一个积极的奖励(机器人做了一些好事)或负面奖励(机器人应该受到惩罚)。
机器人的目标是最大化累积奖励。为此,它通过与世界的互动来学习所谓的政策(或行为/控制者),将其感官输入映射到行动。
在例子中,输入是摄像机图像,动作是油门和转向角。因此,如果我们以汽车停留在轨道上并最大化其速度的方式对奖励进行建模,那么我们就完成了!