【2019/CVPR】Learning Actor Relation Graphs for Group Activity Recognition
TL;DR
文章中提出了一种基于GCN的多人场景动作识别的模型. 为了学习到actors之间的relation, 文中提出了Actor Relation Graph(ARG), 包含了actors之间的纹理和位置特征. 除此之外, 基于不同的metrics, 文章提出了不同的ARG, 值得借鉴.
Dataset/Algorithm/Model
文章主要解决的问题如下图所示, 在一个多人的场景中识别或者推断出出每个人物的动作以及group activity.
文章中提出的模型pipeline如下图所示:
文章中主要的创新点在于如何构建Actor Relation Graph(ARG), 因此主要介绍一下构建ARG的过程.
首先根据采样的视频帧卷积之后得到bounding box和features, 那么scene中每个actor的特征为:
其中表示appearance features,表示bounding box中心的坐标.
假设构建的graph表示为G,表示node i和node j之间的联系. 重点在于如何计算, 文中同时考虑了appearance和locations.计算公式如下:
其中表示appearance metric,表示position metric.
- appearance metric.
- Dot-Product.
- Embedded Dot-Product
- Relation Network.
- position metric.
- Distance Mask
- Distance Encoding
- multiple graphs.
对于GCN文中将multiple graphs的特征进行融合:
Experiment Detail
实验中比较了不同metric或者超参下对实验结果的影响,如下图所示. 目测最好的组合结果如下:
- dot product/embedded dot-product.
- distance mask.
- 16 graphs.
和其它方法比较结果如下:
Thoughts
文中通过利用GCN, 在纹理特征中融入了不同actors之间的relational features, 是一个很好的想法. 但是文章中超参太多, 虽然利用实验结果比较可以选择合适的超参, 但是对于不同的数据集, 这种方法并不适用. 文章中总体想法还是值得借鉴的.
联系作者
本博客所有文章除特别声明外,均采用 CC BY-NC-SA 4.0 许可协议。转载请注明来自 梦家博客!
评论
TwikooValine