秋名山车神介绍,秋名山车神详细讲解

首页 > 娱乐 > 作者:YD1662024-11-13 09:41:35

左:条件扩散模型在两辆车上执行漂移轨迹的示例。右:控制器结构概述和在线模型参数生成过程。

论文二:PoliFormer: Scaling On-Policy RL with Transformers Results in Masterful Navigators

秋名山车神介绍,秋名山车神详细讲解(5)

PoliFormer 是 Policy Transformer 的缩写。这是一种纯 RGB 室内导航智能体,它通过强化学习进行端到端大规模训练。尽管纯粹是在模拟中训练,但训练结果无需调整即可泛化到现实世界。

PoliFormer 使用基础视觉 transformer 编码器和因果 transformer 解码器来实现长期记忆和推理。它在不同的环境中进行了数亿次交互训练,利用并行化、多机扩展实现了高吞吐量的高效训练。

PoliFormer 是一个优秀的导航器,在 LoCoBot 和 Stretch RE-1 机器人这两种不同的具身智能方案和四项导航基准测试中均取得了 SOTA 成绩。它突破了以往工作的瓶颈,在 CHORES-S 基准上实现了前所未有的 85.5% 的目标导航成功率,绝对值提高了 28.5%。

PoliFormer 还可轻松扩展到各种下游应用,如目标跟踪、多目标导航和开放词汇导航,无需进行微调。

以下是一些利用 PoliFormer 进行导航的机器人示例:

1、穿过布满障碍的长走廊找到苹果(LoCoBot):

2、找到一本名为「人类」的书(Stretch RE-1)

3、一次寻找多个物品 —— 沙发、书本、厕所和室内植物(Stretch RE-1)

杰出论文提名

论文 1:Re-Mix: Optimizing Data Mixtures for Large Scale Imitation Learning

秋名山车神介绍,秋名山车神详细讲解(6)

为了训练机器人基础模型,研究领域正在构建越来越多的模仿学习(imitation learning)数据集。然而,数据选择在视觉和自然语言处理中已经被认为是至关重要的,但在机器人技术领域,模型实际上应该使用哪些数据进行训练还是个悬而未决的问题。

基于此,该研究探索了如何权衡机器人数据集的不同子集或「域」以进行机器人基础模型预训练。

具体来说,该研究使用分布式鲁棒优化(DRO)来最大化所有可能的下游域最坏情况性能,提出方法 Re-Mix。Re-Mix 解决了将 DRO 应用于机器人数据集时出现的广泛挑战。Re-Mix 采用提前终止训练(Early Stopping)、动作归一化和离散化来解决这些问题。

通过在最大的开源机器人操作数据集 Open X-Embodiment 上进行广泛的实验,该研究证明数据管理可以对下游性能产生巨大的影响。

论文 2:Equivariant Diffusion Policy

秋名山车神介绍,秋名山车神详细讲解(7)

在机器人学习领域,如何构建有效的模仿学习方法,让机器人能从有限数据中的学习泛化到多样的现实环境中,一直是一个挑战。

为此,该团队结合了 SIM (3) 等神经网络架构与扩散模型,提出了 EquiBot。机器人在学习过程中,不会受到物体大小、位置或方向变化的影响,从而提高了其在不同环境中的适应能力。

秋名山车神介绍,秋名山车神详细讲解(8)

上一页1234下一页

栏目热文

文档排行

本站推荐

Copyright © 2018 - 2021 www.yd166.com., All Rights Reserved.