cvpr是什么级别的论文,cvpr论文含金量

首页 > 书籍文档 > 作者:YD1662023-05-15 08:44:22

安妮 乾明 发自 凹非寺

量子位 出品 | 公众号 QbitAI

CVPR 2019满分论文现身!

这篇论文,来自加州大学圣巴巴拉分校(UCSB)和微软研究院,题为Reinforced Cross-Modal Matching and Self-Supervised Imitation Learning for Vision-Language Navigation

在CVPR 2019评审过程中,从5165篇投稿论文中*出重围,得到3个Strong Accept,得分排名第一,被确定为口头报告论文。

UCSB计算机科学系助理教授王威廉在微博上透露了这一消息,论文的第一作者是其NLP组内同学王鑫

cvpr是什么级别的论文,cvpr论文含金量(1)

有人评论称,最佳论文指日可待。

论文中,基于强化学习,提出一种使用自然语言指挥智能体行动的新方法,在基准数据集上评估,比现有最好的方法性能显著提高了10%。

引入了模仿学习后,极大地提升了智能体在不可见环境中的性能表现。

这一研究成果,如果用于现实世界中,将能够进一步提高家庭机器人以及个人虚拟助理的性能,只要你认识路,机器人就能根据你的描述,找到正确的路。行动会更加高效。

cvpr是什么级别的论文,cvpr论文含金量(2)

跨学科的攻坚战

要理解大牛论文的高明之处,这还得先从视觉语言导航(VLN)这个任务讲起。

在现实世界环境中,用自然语言为智能体指路,就可以理解为视觉语言导航。定义确实不难理解,但实际运行过程中,操作就复杂得多了:

既要求智能体对语言语义有深刻了解,还得对视觉感知问题信手拈来,最重要的是还要将两者结合在一起解决现实世界的任务,这是一场横跨NLP和CV双学科的攻坚战。

而现实世界的具体任务总是略显艰难,下图显示的就是一个VLN任务。

在这个任务中,AI接收到的是“向右走,走向厨房,之后左转,经过一张桌子后进入走廊”等一系列自然语言指令,它看到的是一部分空间中的场景,但需要分析语言中对应的物体即动作,还要脑补出整张空间图。

cvpr是什么级别的论文,cvpr论文含金量(3)

VLN任务案例:图中包含语言指令,局部视觉场景和俯视视角的整体行进轨迹

难就难在了这些地方,以往的研究中,研究人员发现了三大棘手的挑战:

总而言之,解决VLN任务不仅需要具备CV与NLP两个领域的知识,而且整个过程可能反馈寥寥,模型对新鲜样本的适应能力又差,可谓困难重重,无从下手……

但难不倒大神。

基本原理

怎样让智能体听着人类的语言,在迷宫一样的空间里找到正确的方向?

这篇满分论文将强化学习(RL)和模仿学习(IL)知识结合,提出了新型强化跨模态匹配(Reinforced Cross-Modal Matching,RCM)模型,通过强化学习方法联系看得到的局部和看不见的全局场景。

在RCM模型中,推理导航器(Reasoning Navigator,下图中绿色框)是一个中心角色。通过学习文本指令和局部视觉图像中跨模态场景,让智能体推断潜在指令,明白到底应该向哪看。

cvpr是什么级别的论文,cvpr论文含金量(4)

首页 1234下一页

栏目热文

文档排行

本站推荐

Copyright © 2018 - 2021 www.yd166.com., All Rights Reserved.