文章链接:https://arxiv.org/pdf/1904.10117.pdf

TL;DR

文章中提出了一种基于GCN的多人场景动作识别的模型. 为了学习到actors之间的relation, 文中提出了Actor Relation Graph(ARG), 包含了actors之间的纹理和位置特征. 除此之外, 基于不同的metrics, 文章提出了不同的ARG, 值得借鉴.

Dataset/Algorithm/Model

文章主要解决的问题如下图所示, 在一个多人的场景中识别或者推断出出每个人物的动作以及group activity.

文章中提出的模型pipeline如下图所示:

文章中主要的创新点在于如何构建Actor Relation Graph(ARG), 因此主要介绍一下构建ARG的过程.

首先根据采样的视频帧卷积之后得到bounding box和features, 那么scene中每个actor的特征为:

A={(xia,xis)i=1,,N}A=\left\{\left(\mathbf{x}_{i}^{a}, \mathbf{x}_{i}^{s}\right) | i=1, \cdots, N\right\}

其中xax^a表示appearance features,xsx^s表示bounding box中心的坐标.

假设构建的graph表示为G,GijG_{ij}表示node i和node j之间的联系. 重点在于如何计算GijG_{ij}, 文中同时考虑了appearance和locations.计算公式如下:

Gij=fs(xis,xjs)exp(fa(xia,xja))j=1Nfs(xis,xjs)exp(fa(xia,xja))\mathbf{G}_{i j}=\frac{f_{s}\left(\mathbf{x}_{i}^{s}, \mathbf{x}_{j}^{s}\right) \exp \left(f_{a}\left(\mathbf{x}_{i}^{a}, \mathbf{x}_{j}^{a}\right)\right)}{\sum_{j=1}^{N} f_{s}\left(\mathbf{x}_{i}^{s}, \mathbf{x}_{j}^{s}\right) \exp \left(f_{a}\left(\mathbf{x}_{i}^{a}, \mathbf{x}_{j}^{a}\right)\right)}

其中fsf_s表示appearance metric,faf_a表示position metric.

  1. appearance metric.
    • Dot-Product.
    • Embedded Dot-Product
    • Relation Network.
  2. position metric.
    • Distance Mask
    • Distance Encoding
    • multiple graphs.

对于GCN文中将multiple graphs的特征进行融合:

Z(l+1)=i=1Ngσ(GiZ(l)W(l,i))\mathbf{Z}^{(l+1)}=\sum_{i=1}^{N_{g}} \sigma\left(\mathbf{G}^{i} \mathbf{Z}^{(l)} \mathbf{W}^{(l, i)}\right)

Experiment Detail

实验中比较了不同metric或者超参下对实验结果的影响,如下图所示. 目测最好的组合结果如下:

  1. dot product/embedded dot-product.
  2. distance mask.
  3. 16 graphs.

和其它方法比较结果如下:

Thoughts

文中通过利用GCN, 在纹理特征中融入了不同actors之间的relational features, 是一个很好的想法. 但是文章中超参太多, 虽然利用实验结果比较可以选择合适的超参, 但是对于不同的数据集, 这种方法并不适用. 文章中总体想法还是值得借鉴的.

联系作者