⎛xi(0)+(vi,vj)∈E∑didjaijxj(0)⎠⎞⋯xi(k)=21⎝⎛xi(k−1)+(vi,vj)∈E∑didjaijxj(k−1)⎠⎞那么还剩下个问题,如何选择合适大小的k 值呢?在下一节就会讲到。
Clustering AGC
至于聚类方法,论文中采用的是谱聚类将过滤后的特征矩阵Xˉ 划分为m 个簇。
首先通过特征矩阵来计算节点间的距离
K=XˉXˉT
为了使距离矩阵是对称且非负的,因此将矩阵进行对称化
W=21(∣K∣+∣∣∣K⊤∣∣∣)
其中∣⋅∣ 表示将矩阵中的值求绝对值。
根据距离矩阵W 求解m 个最大的特征值然后使用 k-means 算法获得最终的划分结果。
对于论文中的k 阶图卷积还有个关键问题: 如何选择的k 值?,因为k 值太大会导致 over-smoothing 问题。
首先给出 cora 数据集中不同k 值的可视化结果,发现k=12 时分类效果较好。
为了选择合适的k ,论文中选用一个聚类性能指标 簇内距离 来判断,主要意义是可以表示不同聚类C 的效果。计算公式如下图所示
intra(C)=∣C∣1C∈C∑∣C∣(∣C∣−1)1vi=vjvi,vj∈C,∑∥xˉi−xˉj∥2
将k 从 1 进行迭代,论文中找到的是局部最优解,如果intra(C) 开始增大时就停止迭代,因为好的聚类结果是簇内距离小而簇间距离大。
怎么说呢?这个指标就类似图聚类中模块度 Modularity,根据指标度量聚类效果从而选择最好参数k。
好像有什么不对的地方?就像有个量筒我要往里面倒 100 ml 水,本来是想一次性倒完那么可能误差大一点;那现在我倒很多次,每次倒一下看看是不是到了 100 ml,不够就再加。😔
整体算法步骤可以描述如下
Experiments
数据集采用了四个经典属性图网络 Cora,Citeseer,Pubmed,Wiki,实验效果如下所示
还展示了不同k 值对聚类性能的影响。
Thoughts
- 论文中自定义了一种低通滤波图卷积核并通过理论分析其合理性,优势很明显是模型不需要训练,但也存在一些问题。
- 节点原始特征经过论文定义的图卷积 AGC,节点特征维度并没有任何变化,因此就不太适用于高维度特征图,但是低维度的图可以尝试下。
- 对于图聚类中簇数量如何选择这个根本问题还是没有解决。
版权声明: 本博客所有文章除特别声明外,均采用 CC BY-NC-SA 4.0 许可协议。转载请注明来自 梦家博客! 打赏
wechat
alipay