开启vt有什么利弊（vt怎么看是否已经开启） - 原点资讯

开启vt有什么利弊,vt怎么看是否已经开启(1)

新智元专栏

作者：张皓（南京大学）

【新智元导读】相比图像，视频多了一维时序信息。如何利用好视频中的时序信息是研究这类方法的关键。本文简要回顾视频理解方面的近年进展，并对未来可能的研究方向作一展望。

开启vt有什么利弊,vt怎么看是否已经开启(2)

相比图像，视频多了一维时序信息。如何利用好视频中的时序信息是研究这类方法的关键。视频理解可以用于多个领域，例如在智能安防领域中可以取代人工来对监控视频进行分析。本文简要回顾视频理解方面的近年进展，并对未来可能的研究方向作一展望。

常用数据集

视频分类主要有两种数据集，剪辑过(trimmed)的视频和未经剪辑的视频。剪辑的视频中包含一段明确的动作，时间较短标记唯一，而未剪辑的视频还包含了很多无用信息。如果直接对未剪辑的视频进行处理是未来的一大研究方向。

HMDB-51：6,766视频，51类。剪辑的视频，每个视频不超过10秒。内容包括人面部、肢体、和物*互的动作等。
UCF-101：13,320视频，101类，共27小时。剪辑的视频，每个视频不超过10秒。内容包含化妆刷牙、爬行、理发、弹奏乐器、体育运动等。
Charades：9.848视频(7,985训练，1,863测试)，157类。未剪辑的视频，每个视频大约30秒。每个视频有多个标记，以及每个动作的开始和结束时间。
Sports-1M：1,100,000视频(70%训练、20%验证、10%测试)，487类，内容包含各种体育运动。
ActivityNet (v1.3)：19,994视频(10,024训练，4,926验证，5,044测试)，200类，共700小时。内容包括饮食、运动、家庭活动等。
Kinetics：246k训练视频，20k验证视频，400类。

G. A. Sigurdsson, et al. What actions are needed for understanding human actions in videos? ICCV'17.

相比图像分类，视频的类别/动作数目要少很多，而且常常有一定歧义，例如take和put要和后面名词结合才会有具体含义(如take medication, take shoes, take off shoes)。Sigurdsson等人发现人类对这些动词也容易感到混淆。另外，视频中动作开始和结束的时间也不够明确。

经典方法

H. Wang, et al. Dense trajectories and motion boundary descriptors for action recognition. IJCV'13.

H. Wang and C. Schmid. Action recognition with improved trajectories. ICCV'13.

Wang等人提出DT和iDT方法。DT利用光流得到视频中的运动轨迹，再沿着轨迹提取特征。iDT对相机运动进行了补偿，同时由于人的运动比较显著，iDT用额外的检测器检测人，以去除人对相邻帧之间投影矩阵估计的影响。这是深度学习方法成熟之前效果最好的经典方法，该方法的弊端是特征维度高(特征比原始视频还要大)、速度慢。实践中，早期的深度学习方法在和iDT结合之后仍能取得一定的效果提升，现在深度学习方法的性能已较iDT有大幅提升，因此iDT渐渐淡出视线。

开启vt有什么利弊,vt怎么看是否已经开启(3)

逐帧处理融合

这类方法把视频看作一系列图像的集合，每帧图像单独提取特征，再融合它们的深度特征。

A. Karpathy, et al. Large-scale video classification with convolutional neural networks. CVPR'14.

Karpathy等人把视频划分成很多固定长度的片段(clip)，并设计了多种融合方法。

Single frame. 逐帧单独前馈网络。
Late fusion. 两帧相距15帧的图像分别前馈网络，并融合它们的深度卷积特征。
Early fusion. 连续10帧图像前馈网络，因此网络第一层的卷积核由11×11×3变为11×11×3×10。Early fusion的思路最早由Le等人提出。

Le, et al. Learning hierarchical invariant spatio-temporal features for action recognition with independent subspace analysis. CVPR'11.