AAAI 2022丨LUNAR：基于图神经网络的统一离群点检测方法

论文标题丨LUNAR: Unifying Local Outlier Detection Methods via Graph Neural Networks
论文来源丨AAAI 2022
论文链接丨https://arxiv.org/abs/2112.05355
源码链接丨https://github.com/agoodge/lunar

TL;DR

局部离群点检测的方法例如 KNN、LOF 和 DBSCAN 等由于缺少可训练参数，因此难以自适应不同数据集。这篇文章基于图神经网络和局部离群点检测的思想提出了一种统一的异常检测框架 LUNAR (Learnable Uniﬁed Neighbourhood-based Anomaly Ranking)，可以基于近邻节点学习特征从而检测异常点。实验部分证明 LUNAR 效果明显优于现有的局部异常点检测方法和其它的深度学习模型，并且对模型参数的鲁棒性进行效果检验。

Problem Definition

无监督异常检测的定义：给定 $m$ 个正常训练样本 $\mathbf{x}_{1}^{\text {(train) }}, \ldots, \mathbf{x}_{m}^{(\text {train })} \in \mathbb{R}^{d}$ 和 $n$ 个测试样本 $\mathbf{x}_{1}^{\text {(test) }}, \ldots, \mathbf{x}_{n}^{(\text {test })} \in \mathbb{R}^{d}$ ，对于每个测试样本 $\mathbf{x}_{i}^{\text {(test)}}$ 所发需要输入一个异常分数。

Algorithm/Model

类推理论

首先证明局部异常点检测方法可以形式化的类比为 GNN 的信息传递机制；

首先看空域 GNN 信息聚合公式如下

$\begin{aligned} \mathbf{h}_{\mathcal{N}_{i}}^{(k)} &=\square_{j \in \mathcal{N}_{i}} \phi^{(k)}\left(\mathbf{h}_{i}^{(k-1)}, \mathbf{h}_{j}^{(k-1)}, \mathbf{e}_{j, i}\right) \\ \mathbf{h}_{i}^{(k)} &=\gamma^{(k)}\left(\mathbf{h}_{i}^{(k-1)}, \mathbf{h}_{\mathcal{N}_{i}}^{(k)}\right) \end{aligned}$

其中 $\square$ 表示聚合函数， $\phi$ 表示邻居发送的消息， $\gamma$ 表示更新函数。

为了便于理解文章中采用 KNN 的思路说明信息传递机制。

每个样本对应图中节点，文章中构造的是 $k$ -NN directed graph，📢 注意是有向边。

对于节点 $i$ 其邻居节点 $j\in \mathcal{N}_i$ ，其边特征 $\mathbf{e}_{j, i}$ 对应节点距离

$e_{j, i}=\left\{\begin{array}{l} \operatorname{dist}\left(\mathbf{x}_{i}, \mathbf{x}_{j}\right) \text { if } j \in \mathcal{N}_{i} \\ 0 \text { otherwise. } \end{array}\right.$

那么 KNN 信息传递方式如下

信息

$\phi^{(1)}:=\mathbf{e}_{j, i}$

聚合

$\mathbf{h}_{\mathcal{N}_{i}}^{(1)}:=\max _{j \in \mathcal{N}_{i}} \phi^{(1)}$

更新

$\gamma^{(1)}:=\mathbf{h}_{\mathcal{N}_{i}}^{(1)}$

从上面即可看出 KNN 是一种特殊的 one-layer 信息传递模式！🤔

同样地 LOF 和 DBSCAN 中对应上面步骤的方法如下

模型设计

首先是构图，论文中采用 k-NN 有向图，边特征为样本点间的欧式距离如下

$\mathbf{e}_{j, i}=\left\{\begin{array}{l} \operatorname{dist}\left(\mathbf{x}_{i}, \mathbf{x}_{j}\right) \text { if } j \in \mathcal{N}_{i} \\ 0 \text { otherwise. } \end{array}\right.$