开启vt有什么利弊,vt怎么看是否已经开启

首页 > 健康 > 作者:YD1662022-11-26 21:08:37

开启vt有什么利弊,vt怎么看是否已经开启(1)


新智元专栏

作者:张皓(南京大学)

【新智元导读】相比图像,视频多了一维时序信息。如何利用好视频中的时序信息是研究这类方法的关键。本文简要回顾视频理解方面的近年进展,并对未来可能的研究方向作一展望。

开启vt有什么利弊,vt怎么看是否已经开启(2)

相比图像,视频多了一维时序信息。如何利用好视频中的时序信息是研究这类方法的关键。视频理解可以用于多个领域,例如在智能安防领域中可以取代人工来对监控视频进行分析。本文简要回顾视频理解方面的近年进展,并对未来可能的研究方向作一展望。

常用数据集

视频分类主要有两种数据集,剪辑过(trimmed)的视频和未经剪辑的视频。剪辑的视频中包含一段明确的动作,时间较短标记唯一,而未剪辑的视频还包含了很多无用信息。如果直接对未剪辑的视频进行处理是未来的一大研究方向。

G. A. Sigurdsson, et al. What actions are needed for understanding human actions in videos? ICCV'17.

相比图像分类,视频的类别/动作数目要少很多,而且常常有一定歧义,例如take和put要和后面名词结合才会有具体含义(如take medication, take shoes, take off shoes)。Sigurdsson等人发现人类对这些动词也容易感到混淆。另外,视频中动作开始和结束的时间也不够明确。

经典方法

H. Wang, et al. Dense trajectories and motion boundary descriptors for action recognition. IJCV'13.

H. Wang and C. Schmid. Action recognition with improved trajectories. ICCV'13.

Wang等人提出DT和iDT方法。DT利用光流得到视频中的运动轨迹,再沿着轨迹提取特征。iDT对相机运动进行了补偿,同时由于人的运动比较显著,iDT用额外的检测器检测人,以去除人对相邻帧之间投影矩阵估计的影响。这是深度学习方法成熟之前效果最好的经典方法,该方法的弊端是特征维度高(特征比原始视频还要大)、速度慢。实践中,早期的深度学习方法在和iDT结合之后仍能取得一定的效果提升,现在深度学习方法的性能已较iDT有大幅提升,因此iDT渐渐淡出视线。

开启vt有什么利弊,vt怎么看是否已经开启(3)

逐帧处理融合

这类方法把视频看作一系列图像的集合,每帧图像单独提取特征,再融合它们的深度特征

A. Karpathy, et al. Large-scale video classification with convolutional neural networks. CVPR'14.

Karpathy等人把视频划分成很多固定长度的片段(clip),并设计了多种融合方法。

Le, et al. Learning hierarchical invariant spatio-temporal features for action recognition with independent subspace analysis. CVPR'11.

开启vt有什么利弊,vt怎么看是否已经开启(4)

首页 12345下一页

栏目热文

文档排行

本站推荐

Copyright © 2018 - 2021 www.yd166.com., All Rights Reserved.