然后训练过程中使用了负采样方法优化。
按照 doc2vec 的思路用到图结构上,论文中提出的模型采样思路为:
以 graph 代替 document,以 rooted subgraph 代替 work,整体的算法流程如下:
算法主要包括两部分:生成 rooted subgraphs,图编码训练过程;下面简单说明下 rooted graph 生成过程。
Extracting Rooted Subgraphs
生成 rooted subgraph 的主要过程为 WL relabeliing process,详情可参考文章 Weisfeiler-lehman graph kernels,主要思路是把当前节点 及其 映射到一个子图节点集合中国;下面👇 直接看看论文中的生成 subgraph 算法流程:
负采样和优化
由于训练过程中整个子图词汇表规模较大,因此论文中采用负采样的方法提高效率,即在训练图 时,选择不属于 子图集的 个子图样本 。
最后使用 SGD 优化器来训练模型参数。
对于图分类和聚类任务算法的实验结果如下所示;