左:条件扩散模型在两辆车上执行漂移轨迹的示例。右:控制器结构概述和在线模型参数生成过程。
论文二:PoliFormer: Scaling On-Policy RL with Transformers Results in Masterful Navigators
- 作者:Kuo-Hao Zeng, Kiana Ehsani, Rose Hendrix, Jordi Salvador, Zichen Zhang, Alvaro Herrasti, Ross Girshick, Aniruddha Kembhavi, Luca Weihs
- 机构:艾伦人工智能研究所 PRIOR(Perceptual Reasoning and Interaction Research)团队
- 项目链接:https://poliformer.allen.ai/
- 论文链接:https://arxiv.org/pdf/2406.20083
PoliFormer 是 Policy Transformer 的缩写。这是一种纯 RGB 室内导航智能体,它通过强化学习进行端到端大规模训练。尽管纯粹是在模拟中训练,但训练结果无需调整即可泛化到现实世界。
PoliFormer 使用基础视觉 transformer 编码器和因果 transformer 解码器来实现长期记忆和推理。它在不同的环境中进行了数亿次交互训练,利用并行化、多机扩展实现了高吞吐量的高效训练。
PoliFormer 是一个优秀的导航器,在 LoCoBot 和 Stretch RE-1 机器人这两种不同的具身智能方案和四项导航基准测试中均取得了 SOTA 成绩。它突破了以往工作的瓶颈,在 CHORES-S 基准上实现了前所未有的 85.5% 的目标导航成功率,绝对值提高了 28.5%。
PoliFormer 还可轻松扩展到各种下游应用,如目标跟踪、多目标导航和开放词汇导航,无需进行微调。
以下是一些利用 PoliFormer 进行导航的机器人示例:
1、穿过布满障碍的长走廊找到苹果(LoCoBot):
2、找到一本名为「人类」的书(Stretch RE-1)
3、一次寻找多个物品 —— 沙发、书本、厕所和室内植物(Stretch RE-1)
杰出论文提名
论文 1:Re-Mix: Optimizing Data Mixtures for Large Scale Imitation Learning
- 机构:斯坦福大学、UC 伯克利
- 作者:Joey Hejna, Chethan Anand Bhateja, Yichen Jiang, Karl Pertsch, Dorsa Sadigh
- 论文地址:https://arxiv.org/abs/2408.14037
为了训练机器人基础模型,研究领域正在构建越来越多的模仿学习(imitation learning)数据集。然而,数据选择在视觉和自然语言处理中已经被认为是至关重要的,但在机器人技术领域,模型实际上应该使用哪些数据进行训练还是个悬而未决的问题。
基于此,该研究探索了如何权衡机器人数据集的不同子集或「域」以进行机器人基础模型预训练。
具体来说,该研究使用分布式鲁棒优化(DRO)来最大化所有可能的下游域最坏情况性能,提出方法 Re-Mix。Re-Mix 解决了将 DRO 应用于机器人数据集时出现的广泛挑战。Re-Mix 采用提前终止训练(Early Stopping)、动作归一化和离散化来解决这些问题。
通过在最大的开源机器人操作数据集 Open X-Embodiment 上进行广泛的实验,该研究证明数据管理可以对下游性能产生巨大的影响。
论文 2:Equivariant Diffusion Policy
- 作者:Dian Wang, Stephen Hart, David Surovik, Tarik Kelestemur, Haojie Huang, Haibo Zhao, Mark Yeatman, Jiuguang Wang, Robin Walters, Robert Platt
- 机构:东北大学、波士顿动力
- 论文地址:https://arxiv.org/abs/2407.01812
在机器人学习领域,如何构建有效的模仿学习方法,让机器人能从有限数据中的学习泛化到多样的现实环境中,一直是一个挑战。
为此,该团队结合了 SIM (3) 等神经网络架构与扩散模型,提出了 EquiBot。机器人在学习过程中,不会受到物体大小、位置或方向变化的影响,从而提高了其在不同环境中的适应能力。