【2019/CVPR】3D Hand Shape and Pose Estimation from a Single RGB Image

文章链接：https://arxiv.org/pdf/1903.00812.pdf

TL;DR

本文基于图卷积提出了一个端到端的手势网格生成方法。在训练中，由于真实数据缺少3D mesh，本文基于深度图提出了一个弱监督学习的训练pipeline，主要是将3D mesh经过一个Renderer生成深度图,再用深度图进行训练model。除此之外,文章公布了一个新的Synthetic+Real手势数据集：数据中包括手的3D locations和3D meshes。

Dataset/Algorithm/Model

文章中model的pipeline如下所示:

根据我对hand pose estimation的了解, 这pipeline的主要创新点在于中间加上了 Graph CNN 生成了3D hand mesh, 在利用 hand mesh数据loss训练model.

Graph CNN (关注的点)

对于前半部分网络提取出来的特征，先通过FC层之后reshape到80个顶点的mesh shape，每个顶点包含64D的特征。然后经过上采样和4层Graph Conv得到包含1280个顶点坐标的3D mesh坐标。流程如下所示:

Experiment Detail

Thoughts

文章中提到的hand mesh, 认为这才是最大的创新点. 利用hand mesh, 既可以恢复出hand shape, 又可以经过regressor计算得到3D坐标. 至于hand mesh的生成, 可以使用GCN和Upsampling. 这种pipeline, 不仅如此, 也可以用在人脸的三维重建当中. 有兴趣的小伙伴也可以研究一下.

文章中的主要问题在于增加了mesh的训练数据, 并且在GCN的pipeline中顶点的数量如何确定这也很tricky.

对于这篇文章中用到的GCN用在人脸识别当中目前是不可行的, 因为我们还没这么多数据, 只有81个landmarks. 所以构图上借鉴不了.