D. Tran, et al. A closer look at spatio-temporal convolutions for action recognition. CVPR'18.
Tran等人提出ResNet (2 1)D,把一个3D卷积分解成为一个2D卷积空间卷积和一个1D时间卷积,注意这里的参数量和原3D卷积相同。相比P3D有三种形式,(2 1)D和P3D-A最接近。
C. Lea, et al. Temporal convolutional networks for action segmentation and detection. CVPR'17.
受WaveNet启发,Lea等人提出一个编码-解码网络,并使用空洞卷积和短路连接,以捕获长距离依赖。实验中发现,这种结构效果优于RNN。
L. Wang, et al. Appearance-and-relation networks for video classfication. CVPR'18.
Wang等人希望利用3D卷积显式地学习类似two-stream的结构。Wang等人通过不同帧之间的乘性关系度量不同帧之间的关系。
K. Hara, et al. Can spatio-temporal 3D CNNs retrace the history of 2D CNNs and ImageNet? CVPR'18.
Hara等人尝试了多种3D网络结构。
X. Wang, et al. Non-local neural networks. CVPR'18.
可以看作是3D卷积的一个扩展。3D卷积的感受野是有限区域,而non-local旨在解决长距离依赖问题。Non-local的响应是所有空间和时间位置特征的加权平均