基本定义 Skeleton :初始化图G G G 为无向完全图。
PDAG :设G = ( V , E ) G = (V, E) G = ( V , E ) 是一个图,若边集E E E 中包含有向边和无向边,则称 𝑃 是一个部分有向图。若部分有向图 𝑃 中不存在有向环,则称 𝑃 是一个部分有向无环图 (PDAG)。
马尔科夫等价 :贝叶斯网络< G 1 , P 1 > <G_1, P_1> < G 1 , P 1 > 和< G 2 , P 2 > <G_2, P_2> < G 2 , P 2 > 马尔科夫等价,当且仅当G 1 G_1 G 1 和G 2 G_2 G 2 具有相同的框架和V V V 结构(即对撞结构)。
有向无环图G = ( V , E ) G = (V, E) G = ( V , E ) ,任意有向边V i → V j ∈ E V_i \rightarrow V_j ∈ E V i → V j ∈ E ,若存在图G ′ = ( V , E ′ ) G' = (V, E') G ′ = ( V , E ′ ) 与G G G 等价,且V j → V i ∈ E ′ V_j \rightarrow V_i ∈ E' V j → V i ∈ E ′ ,则称有向边V i → V j V_i \rightarrow V_j V i → V j 在G G G 中是可逆的,否则是不可逆的。
同理,对任意无向边V i → V j ∈ E V_i \rightarrow V_j ∈ E V i → V j ∈ E ,若存在G 1 = ( V , E 1 ) G_1 = (V, E_1) G 1 = ( V , E 1 ) 、G 2 = ( V , E 2 ) G_2 = (V, E_2) G 2 = ( V , E 2 ) 均与G G G 等价,且V i → V j ∈ E 1 V_i \rightarrow V_j ∈ E_1 V i → V j ∈ E 1 、V j → V i ∈ E 2 V_j \rightarrow V_i ∈ E_2 V j → V i ∈ E 2 , 则 称 无 向边V i → V j V_i \rightarrow V_j V i → V j 在G G G 中是可逆的,否则是不可逆的。
CPDAG :设G = ( V , E ) G = (V, E) G = ( V , E ) 是一个部分有向无环图,若E E E 中的有向边都是不可逆的,并且E E E 中的无向边都是可逆的,则称G G G 是一个完全部分有向无环图 (CPDAG)。
传统方法 算法过程参考文献 ,是经典的 PC 算法过程。
传统 PC 算法
在文献 中对其 skeleton 估计进行重写,如下所示:
PC 改写
条件独立性优化 偏相关系数 指校正其它变量后某一变量与另一变量的相关关系,校正的意思可以理解为假定其它变量都取值为均数服从高斯分布的随机变量,条件独立性与偏相关系数为 0 等价:
假设随机变量X X X 服从多元高斯分布,对于i ≠ j ∈ ( 1 , . . . , p ) , k ⊆ ( 1 , . . . , p ) / ( i , j ) i \not =j∈(1, ..., p),k⊆(1, ..., p) /\ (i,j) i = j ∈ ( 1 , . . . , p ) , k ⊆ ( 1 , . . . , p ) / ( i , j ) ,用ρ i , j ∣ k ρ_{i,j|k} ρ i , j ∣ k 表示X ( i ) X(i) X ( i ) 和X ( j ) X(j) X ( j ) 与X ( r ) ( r ∈ k ) X^{(r)} (r∈k) X ( r ) ( r ∈ k ) 之间的偏相关系数 。 当且仅当X ( i ) X(i) X ( i ) 和X ( j ) X( j ) X ( j ) 条件独立与X ( r ) ( r ∈ k ) X^{(r)} (r∈k) X ( r ) ( r ∈ k ) 时,ρ i , j ∣ k = 0 ρ_{i,j|k}=0 ρ i , j ∣ k = 0 。
∴ 条件独立性可由偏相关估计出来,条件独立性检验转偏相关系数检验。
任意两个变量i , j i, j i , j 的h h h (排除其他h h h 个变量的影响后,h < = k − 2 h<=k-2 h < = k − 2 )阶样本偏相关系数:
ρ i , j ∣ k = ρ i , j ∣ k \ h − ρ i , h ∣ k \ h ρ j , h ∣ k \ h ( 1 − ρ i , h ∣ k \ h 2 ) ( 1 − ρ j , h ∣ k \ h 2 ) \rho_{i, j \mid \mathbf{k}}=\frac{\rho_{i, j \mid \mathbf{k} \backslash h} - \rho_{i, h \mid \mathbf{k} \backslash h}\rho_{j,h \mid \mathbf{k} \backslash h}}{\sqrt{\left(1-\rho_{i, h \mid \mathbf{k} \backslash h}^{2}\right)\left(1-\rho_{j, h \mid \mathbf{k} \backslash h}^{2}\right)}} ρ i , j ∣ k = ( 1 − ρ i , h ∣ k \ h 2 ) ( 1 − ρ j , h ∣ k \ h 2 ) ρ i , j ∣ k \ h − ρ i , h ∣ k \ h ρ j , h ∣ k \ h Fisher Z Test ρ ≠ 0 ρ\not=0 ρ = 0 时的显著性检验。
ρ ≠ 0 ρ\not=0 ρ = 0 时不是正态分布,不能进行t t t 检验。将ρ \rho ρ 进行 Fisher Z 转换,转换后可以认为是正态分布。
Fisher’s z-transform:
Z ( i , j ∣ k ) = 1 2 log ( 1 + ρ ^ i , j ∣ k 1 − ρ ^ i , j ∣ k ) Z(i, j \mid \mathbf{k})=\frac{1}{2} \log \left(\frac{1+\hat{\rho}_{i, j \mid \mathbf{k}}}{1-\hat{\rho}_{i, j \mid \mathbf{k}}}\right) Z ( i , j ∣ k ) = 2 1 log ( 1 − ρ ^ i , j ∣ k 1 + ρ ^ i , j ∣ k ) 零假设:H 0 ( i , j ∣ k ) : ρ i , j ∣ k ≠ 0 H_0(i,j|k): ρ_{i,j|k} \not= 0 H 0 ( i , j ∣ k ) : ρ i , j ∣ k = 0
对立假设:H 1 ( i , j ∣ k ) : ρ i , j ∣ k = 0 H_1(i,j|k): ρ_{i,j|k} = 0 H 1 ( i , j ∣ k ) : ρ i , j ∣ k = 0
当n − ∣ k ∣ − 3 ∣ Z ( i , j ∣ k ) > Φ − 1 ( 1 − α / 2 ) \sqrt{n-|k|-3}|Z(i,j|k)>Φ^{-1}(1-α/2) n − ∣ k ∣ − 3 ∣ Z ( i , j ∣ k ) > Φ − 1 ( 1 − α / 2 ) ,H 0 H_0 H 0 成立。
∴ 用n − ∣ k ∣ − 3 ∣ Z ( i , j ∣ k ) < = Φ − 1 ( 1 − α / 2 ) \sqrt{n-|k|-3}|Z(i,j|k)<=Φ^{-1}(1-α/2) n − ∣ k ∣ − 3 ∣ Z ( i , j ∣ k ) < = Φ − 1 ( 1 − α / 2 ) 替换 PC-Algorithm 中的“如果i , j i,j i , j 被k k k d − s e p a r a t i o n d-separation d − s e p a r a t i o n ”
注:
条件独立性检验包含两种方式:
G-square test:基于条件交叉熵,主要用于类别变量。 Fisher-Z test:基于皮尔逊相关系数,主要用于连续变量。 详情参考:偏相关系数与条件独立性检验 https://en.wikipedia.org/wiki/Partial_correlation
CPDAG 将 Skeleton 扩展为等价的 CPDAG :
有向无环图构建过程
联系作者