L. Sun, et al. Human action recognition using factorized spatio-temporal convolutional networks. ICCV'15.
Sun等人把3D卷积分解为空间方向2D卷积和时间方向1D卷积。
J. Carreira and A. Zisserman. Quo vadis, action recognition? A new model and the Kinetics dataset. CVPR'17.
Carreira和Zisserman提出I3D,把two-stream结构中的2D卷积扩展为3D卷积。由于时间维度不能缩减过快,前两个汇合层的卷积核大小是1×2×2,最后的汇合层的卷积核大小是2*7*7。和之前文章不同的是,two-tream的两个分支是单独训练的,测试时融合它们的预测结果。
Z. Qiu, et al. Learning spatio-temporal representation with pseudo-3D residual networks. ICCV'17.
Qiu等人提出P3D,用一个1×3×3的空间方向卷积和一个3×1×1的时间方向卷积近似原3×3×3卷积。通过组合三种不同的模块结构,进而得到P3D ResNet。P3D ResNet在参数数量、运行速度等方面对C3D作出了优化。