秋名山车神介绍（秋名山车神详细讲解） - 原点资讯

左：条件扩散模型在两辆车上执行漂移轨迹的示例。右：控制器结构概述和在线模型参数生成过程。

论文二：PoliFormer: Scaling On-Policy RL with Transformers Results in Masterful Navigators

秋名山车神介绍,秋名山车神详细讲解(5)

作者：Kuo-Hao Zeng, Kiana Ehsani, Rose Hendrix, Jordi Salvador, Zichen Zhang, Alvaro Herrasti, Ross Girshick, Aniruddha Kembhavi, Luca Weihs
机构：艾伦人工智能研究所 PRIOR（Perceptual Reasoning and Interaction Research）团队
项目链接：https://poliformer.allen.ai/
论文链接：https://arxiv.org/pdf/2406.20083

PoliFormer 是 Policy Transformer 的缩写。这是一种纯 RGB 室内导航智能体，它通过强化学习进行端到端大规模训练。尽管纯粹是在模拟中训练，但训练结果无需调整即可泛化到现实世界。

PoliFormer 使用基础视觉 transformer 编码器和因果 transformer 解码器来实现长期记忆和推理。它在不同的环境中进行了数亿次交互训练，利用并行化、多机扩展实现了高吞吐量的高效训练。

PoliFormer 是一个优秀的导航器，在 LoCoBot 和 Stretch RE-1 机器人这两种不同的具身智能方案和四项导航基准测试中均取得了 SOTA 成绩。它突破了以往工作的瓶颈，在 CHORES-S 基准上实现了前所未有的 85.5% 的目标导航成功率，绝对值提高了 28.5%。

PoliFormer 还可轻松扩展到各种下游应用，如目标跟踪、多目标导航和开放词汇导航，无需进行微调。

以下是一些利用 PoliFormer 进行导航的机器人示例：

1、穿过布满障碍的长走廊找到苹果（LoCoBot）：

2、找到一本名为「人类」的书（Stretch RE-1）

3、一次寻找多个物品 —— 沙发、书本、厕所和室内植物（Stretch RE-1）

杰出论文提名

论文 1：Re-Mix: Optimizing Data Mixtures for Large Scale Imitation Learning

秋名山车神介绍,秋名山车神详细讲解(6)

为了训练机器人基础模型，研究领域正在构建越来越多的模仿学习（imitation learning）数据集。然而，数据选择在视觉和自然语言处理中已经被认为是至关重要的，但在机器人技术领域，模型实际上应该使用哪些数据进行训练还是个悬而未决的问题。

基于此，该研究探索了如何权衡机器人数据集的不同子集或「域」以进行机器人基础模型预训练。

具体来说，该研究使用分布式鲁棒优化（DRO）来最大化所有可能的下游域最坏情况性能，提出方法 Re-Mix。Re-Mix 解决了将 DRO 应用于机器人数据集时出现的广泛挑战。Re-Mix 采用提前终止训练（Early Stopping）、动作归一化和离散化来解决这些问题。

通过在最大的开源机器人操作数据集 Open X-Embodiment 上进行广泛的实验，该研究证明数据管理可以对下游性能产生巨大的影响。

论文 2:Equivariant Diffusion Policy

秋名山车神介绍,秋名山车神详细讲解(7)

作者：Dian Wang, Stephen Hart, David Surovik, Tarik Kelestemur, Haojie Huang, Haibo Zhao, Mark Yeatman, Jiuguang Wang, Robin Walters, Robert Platt
机构：东北大学、波士顿动力
论文地址：https://arxiv.org/abs/2407.01812

在机器人学习领域，如何构建有效的模仿学习方法，让机器人能从有限数据中的学习泛化到多样的现实环境中，一直是一个挑战。

为此，该团队结合了 SIM (3) 等神经网络架构与扩散模型，提出了 EquiBot。机器人在学习过程中，不会受到物体大小、位置或方向变化的影响，从而提高了其在不同环境中的适应能力。

秋名山车神介绍,秋名山车神详细讲解(8)