基本定义

Skeleton:初始化图GG 为无向完全图。

PDAG:设G=(V,E)G = (V, E) 是一个图,若边集EE 中包含有向边和无向边,则称 𝑃 是一个部分有向图。若部分有向图 𝑃 中不存在有向环,则称 𝑃 是一个部分有向无环图 (PDAG)。

马尔科夫等价:贝叶斯网络<G1,P1><G_1, P_1><G2,P2><G_2, P_2> 马尔科夫等价,当且仅当G1G_1G2G_2 具有相同的框架和VV 结构(即对撞结构)。

有向无环图G=(V,E)G = (V, E) ,任意有向边ViVjEV_i \rightarrow V_j ∈ E,若存在图G=(V,E)G' = (V, E')GG 等价,且VjViEV_j \rightarrow V_i ∈ E',则称有向边ViVjV_i \rightarrow V_jGG 中是可逆的,否则是不可逆的。

同理,对任意无向边ViVjEV_i \rightarrow V_j ∈ E,若存在G1=(V,E1)G_1 = (V, E_1)G2=(V,E2)G_2 = (V, E_2) 均与GG 等价,且ViVjE1V_i \rightarrow V_j ∈ E_1VjViE2V_j \rightarrow V_i ∈ E_2, 则 称 无 向边ViVjV_i \rightarrow V_jGG 中是可逆的,否则是不可逆的。

CPDAG:设G=(V,E)G = (V, E) 是一个部分有向无环图,若EE 中的有向边都是不可逆的,并且EE 中的无向边都是可逆的,则称GG 是一个完全部分有向无环图 (CPDAG)。

传统方法

算法过程参考文献 [1],是经典的 PC 算法过程。

传统 PC 算法

在文献 [2] 中对其 skeleton 估计进行重写,如下所示:

PC 改写

条件独立性优化

偏相关系数

指校正其它变量后某一变量与另一变量的相关关系,校正的意思可以理解为假定其它变量都取值为均数服从高斯分布的随机变量,条件独立性与偏相关系数为 0 等价:

假设随机变量XX 服从多元高斯分布,对于ij(1,...,p)k(1,...,p)/ (ij)i \not =j∈(1, ..., p),k⊆(1, ..., p) /\ (i,j),用ρijkρ_{i,j|k} 表示X(i)X(i)X(j)X(j)X(r)(rk)X^{(r)} (r∈k) 之间的偏相关系数 。 当且仅当X(i)X(i)X(j)X( j ) 条件独立与X(r)(rk)X^{(r)} (r∈k) 时,ρijk=0ρ_{i,j|k}=0

∴ 条件独立性可由偏相关估计出来,条件独立性检验转偏相关系数检验。

任意两个变量i,ji, jhh(排除其他hh个变量的影响后,h<=k2h<=k-2)阶样本偏相关系数:

ρi,jk=ρi,jk\hρi,hk\hρj,hk\h(1ρi,hk\h2)(1ρj,hk\h2)\rho_{i, j \mid \mathbf{k}}=\frac{\rho_{i, j \mid \mathbf{k} \backslash h} - \rho_{i, h \mid \mathbf{k} \backslash h}\rho_{j,h \mid \mathbf{k} \backslash h}}{\sqrt{\left(1-\rho_{i, h \mid \mathbf{k} \backslash h}^{2}\right)\left(1-\rho_{j, h \mid \mathbf{k} \backslash h}^{2}\right)}}

Fisher Z Test

ρ0ρ\not=0时的显著性检验。

ρ0ρ\not=0时不是正态分布,不能进行tt 检验。将ρ\rho 进行 Fisher Z 转换,转换后可以认为是正态分布。

Fisher’s z-transform:

Z(i,jk)=12log(1+ρ^i,jk1ρ^i,jk)Z(i, j \mid \mathbf{k})=\frac{1}{2} \log \left(\frac{1+\hat{\rho}_{i, j \mid \mathbf{k}}}{1-\hat{\rho}_{i, j \mid \mathbf{k}}}\right)

零假设:H0(i,jk):ρijk0H_0(i,j|k): ρ_{i,j|k} \not= 0

对立假设:H1(i,jk):ρijk=0H_1(i,j|k): ρ_{i,j|k} = 0

nk3Z(i,jk)>Φ1(1α/2)\sqrt{n-|k|-3}|Z(i,j|k)>Φ^{-1}(1-α/2)H0H_0成立。

∴ 用nk3Z(i,jk)<=Φ1(1α/2)\sqrt{n-|k|-3}|Z(i,j|k)<=Φ^{-1}(1-α/2)替换 PC-Algorithm 中的“如果i,ji,jkkdseparationd-separation

注:

条件独立性检验包含两种方式:

  • G-square test:基于条件交叉熵,主要用于类别变量。
  • Fisher-Z test:基于皮尔逊相关系数,主要用于连续变量。

详情参考:偏相关系数与条件独立性检验 https://en.wikipedia.org/wiki/Partial_correlation

CPDAG

将 Skeleton 扩展为等价的 CPDAG

有向无环图构建过程 联系作者
  1. Spirtes, Peter, and Clark Glymour. “An algorithm for fast recovery of sparse causal graphs.” Social science computer review 9.1 (1991): 62-72. ↩︎

  2. Kalisch, Markus, and Peter Bühlmann. “Estimating high-dimensional directed acyclic graphs with the PC-algorithm.” Journal of Machine Learning Research 8.Mar (2007): 613-636. ↩︎