【2019/CVPR】3D Hand Shape and Pose Estimation from a Single RGB Image
TL;DR
本文基于图卷积提出了一个端到端的手势网格生成方法。在训练中,由于真实数据缺少3D mesh,本文基于深度图提出了一个弱监督学习的训练pipeline,主要是将3D mesh经过一个Renderer生成深度图,再用深度图进行训练model。除此之外,文章公布了一个新的Synthetic+Real手势数据集:数据中包括手的3D locations和3D meshes。
Dataset/Algorithm/Model
文章中model的pipeline如下所示:
根据我对hand pose estimation的了解, 这pipeline的主要创新点在于中间加上了 Graph CNN 生成了3D hand mesh, 在利用 hand mesh数据loss训练model.
Graph CNN (关注的点)
对于前半部分网络提取出来的特征,先通过FC层之后reshape到80个顶点的mesh shape, 每个顶点包含64D的特征。然后经过上采样和4层Graph Conv得到包含1280个顶点坐标的3D mesh坐标。 流程如下所示:
Experiment Detail
Thoughts
文章中提到的hand mesh, 认为这才是最大的创新点. 利用hand mesh, 既可以恢复出hand shape, 又可以经过regressor计算得到3D坐标. 至于hand mesh的生成, 可以使用GCN和Upsampling. 这种pipeline, 不仅如此, 也可以用在人脸的三维重建当中. 有兴趣的小伙伴也可以研究一下.
文章中的主要问题在于增加了mesh的训练数据, 并且在GCN的pipeline中顶点的数量如何确定这也很tricky.
对于这篇文章中用到的GCN用在人脸识别当中目前是不可行的, 因为我们还没这么多数据, 只有81个landmarks. 所以构图上借鉴不了.
联系作者
本博客所有文章除特别声明外,均采用 CC BY-NC-SA 4.0 许可协议。转载请注明来自 梦家博客!
评论
TwikooValine