人类操作员可以通过 Shadowing 系统远程控制人形机器人,收集其全身运动数据,以便在现实环境中学习各种任务。基于这些数据,研究人员采用有监督的行为克隆方法,再对机器人进行训练。
只需 40 次演示,搭载 Shadowing 系统的机器人就可以可以自主完成诸如穿鞋站立和行走,从仓库货架上卸载物品,叠衣服,重新排列物品,打字以及与另一个机器人打招呼等任务,成功率为 60-100%。
更多详情,请参看机器之心之前的报道:《从 ALOHA 迈向 Humanplus,斯坦福开源人形机器人,「高配版人类」上线》
论文 4:OpenVLA: An Open-Source Vision-Language-Action Model
- 机构:斯坦福大学、UC 伯克利、丰田研究院、Google Deepmind 等
- 作者:Moo Jin Kim, Karl Pertsch, Siddharth Karamcheti, Ted Xiao, Ashwin Balakrishna, Suraj Nair, Rafael Rafailov, Ethan P Foster, Pannag R Sanketi, Quan Vuong, Thomas Kollar, Benjamin Burchfiel, Russ Tedrake, Dorsa Sadigh, Sergey Levine, Percy Liang, Chelsea Finn
- 论文地址:https://arxiv.org/abs/2406.09246
- 项目地址:https://github.com/openvla/openvla
机器人技术视觉语言动作(VLA)的广泛采用一直面临挑战,因为:
- 现有的 VLA 基本上是封闭的,无法开放访问;
- 之前的工作未能探索针对新任务有效微调 VLA 的方法。
为了解决上述挑战,斯坦福提出首个开源 VLA 大模型 ——OpenVLA(7B 参数),经过 97 万个真实机器人演示的多样化数据集进行训练。OpenVLA 以 Llama 2 语言模型为基础,结合视觉编码器,融合了 DINOv2 和 SigLIP 的预训练特征。
作为增加数据多样性和新模型组件的产物,OpenVLA 在通用操作方面展示了强大的结果,在 29 个任务上任务成功率比 RT-2-X (55B) 等封闭模型高出 16.5%,参数减少为 1/7。
该研究进一步表明,可以针对新设置有效地微调 OpenVLA,在涉及多个对象和强大语言基础能力的多任务环境中具有特别强的泛化结果。
在计算效率方面,该研究表明 OpenVLA 可以通过低秩适应(LoRA)方法在消费级 GPU 上进行微调,并通过量化有效地提供服务,而不会影响下游的成功率。
参考链接:https://www.corl.org/program/awards