X.-S. Wei, et al. Deep bimodal regression of apparent personality traits from short video sequences. TAC'17.
由于相邻帧信息冗余度很高,Wei等人从视频(450帧)中采样100帧,每帧交由DAN分别进行预测。在得到relu5-2/pool5深度特征之后,DAN将其全局最大/平均汇合以得到深度特征。
A. Kar, et al. AdaScan: Adaptive scan pooling in deep convolutional neural networks for human action recognition in videos. CVPR'17.
由于不同帧的重要性不同,Kar等人提出AdaScan汇合方法。其逐帧提取特征,之后判断不同帧的重要程度,并据此进行特征汇合。
M. Zolfaghari, et al. ECO: Efficient Convolutional network for Online video understanding. arXiv:1804.09066.
Zolfaghari等人提出ECO。由于相邻帧有信息冗余,ECO从视频中采样若干帧,每帧单独用2D卷积提取特征,之后沿时间方向拼接特征,再用3D卷积捕获它们的时序关系。ECO和state-of-the-art方法性能相似,但速度上快了10-80倍。在测试时,为了捕获长距离依赖,输入视频片段由已看过的和未看过的视频中采样得到。