本文主要介绍度量图中顶点重要性的指标

局部特征

度中心性(Degree Centrality)

一个节点的度越大就意味着这个节点越重要,为了便于比较而对中心性指标做归一化处理,度为kik_i的节点的归一化的度中心性值定义为:

DCi=kiN1DC_i=\frac{k_i}{N-1}

集聚系数(Clustering Coefficient)

对于节点i, 它的邻居节点N(i)之间所存在的边数,与可能存在的最大边数的比值,就叫节点i的局部集聚系数。网络的全局集聚系数就是所有节点的集聚系数求平均值。

ClusterCoefficient(i)=j,kN(i)A(j,k)N(i)(N(i)1)/2ClusterCoefficient(i)=\frac{\sum_{j,k\in N(i)}A(j,k)}{|N(i)|*(|N(i)|-1)/2}

全局特征

介数中心性(Between Centrality)

经过某个节点的最短路径的数目来刻画节点重要性的指标就成为介数中心性(Betweeness centrality),简称介数(BC)。其计算方法如下,分子是所有经过点i的最短路径数,分母是所有最短路径数:

BC(i)=s<tnstigstBC(i)=\sum_{s<t}\frac{n_{st}^i}{g_{st}}

接近中心性(Closeness Centrality)

一个点如果到其它所有点的最短路径越小,则该点就越居于网络的中心位置。计算方法如下所示,其中di,jd_{i,j}表示i到j的最短路径长度。把分子N-1放到分母上,就相当于是所有最短路径的平均值:

CC(i)=N1j=1NdijCC(i)=\frac{N-1}{\sum_{j=1}^Nd_{ij}}

特征向量中心性(Eigenvector Centrality)

基本想法是:一个节点的重要性既取决于其邻居节点的数量(即该节点的度),也取决于其邻居节点的重要性。该指标计算公式如下(相当于对邻居节点的重要性作了线性加权,而加权权重是图G的邻接矩阵的特征向量):

EC(i)=λ1j=1NAijejEC(i)=\lambda^{-1}\sum_{j=1}^NA_{ij}e_j

K-Shell

K-shell 方法递归地剥离网络中度数小于或等于 k 的节点,具体划分过程如下: 假设网络中不存在度数为 0 的孤立节点。从度指标的角度分析,度数为 1的节点是网络中最不重要的节点,因此首先将度数为 1 的节点及其连边从网络中删除。删除操作进行之后的网络中会出现新的度数为 1 的节点,接着将这些新出现的度数为 1 的节点及其连边删除。重复上述操作,直到网络中不再新出现度数为 1的节点为止。此时所有被删除的节点构成第一层,即 1-shell,节点的 Ks 值等于 1。剩下的网络中,每个节点的度数至少为2。继续重复上述删除操作,得到 Ks 值等于 2 的第二层,即 2-shell。依此类推,直到网络中所有的节点都被赋予 Ks 值。

其它指标

PageRank

  1. 如果一个网页被很多其他网页链接到的话说明这个网页比较重要,也就是PageRank值会相对较高。
  2. 如果一个PageRank值很高的网页链接到一个其他的网页,那么被链接到的网页的PageRank值会相应地因此而提高。

计算公式:

PR(pi)=αpjMpiPR(pj)L(pj)+1αNPR(p_i)=\alpha\sum_{p_j\in M_{p_i}}\frac{PR(p_j)}{L(p_j)}+\frac{1-\alpha}{N}

其中MpiM_{p_i}是所有对pip_i网页有出链的网页集合,L(pj)L(p_j)是网页pjp_j的出链的数目,NN是网页总数,α\alpha取值一般为0.85

GFT Centrality

一种基于图的傅里叶变换度量节点的重要性,论文作者讲述的思想容易理解但是实现的过程讲述的不详细。参考

DIL(Measurement of node importance based on Degree and the Importance of Lines)

论文作者提出了一种计算边的重要性的方法以此来评价边的重要性。

联系作者