ICSE 2021丨Arvalus：分布式云环境中基于依赖关系学习的异常定位方法

论文标题｜ Learning Dependencies in Distributed Cloud Applications to Identify and Localize Anomalies
论文来源｜ ICSE 2021
论文链接｜ https://arxiv.org/abs/2103.05245
源码链接｜ https://github.com/mcd01/arvalus-experiments

TL;DR

考虑到系统组件间的依赖和异常传播的关系，论文中提出了 Arvalus 及其变形 D-Arvalus 方法来提升异常检测和定位的准确性，主要想法是利用图卷积变换的方法来学习系统组件节点和边属性的特征，以此融合特征来判定系统组件节点类别，整体属于有监督的分类方法。实验部分在人工生成数据集中模拟故障，在此数据集中验证了算法的有效性以及考虑了依赖关系的 D-Arvalus 的有效性。

Algorithm/Model

论文中提出的方法主要包含三步：

节点特征提取：将组件 KPI 子序列转换为节点特征；
依赖关系模型：学习边权重然后基于图卷积方法将相邻节点特征融合；
异常判定分类：根据融合后的节点特征进行异常分类；

Node Feature Extraction

给定系统组件指标序列 $S=(S_t \in \mathbb{R}^d:t=1,2,...,T)$ ， $d$ 表示指标 KPIs 数量，子序列 $S_b^a = (S_a, S_{a+1},...,S_b), 0\leq a,b\leq T$ 。首先需要将 KPI 子序列 $S_b^a\in \mathbb{R}^{d\times (b-a)}$ 转化为节点特征 $\vec{x} \in \mathbb{R}^{F}$ ，以此来表示当前节点状态。

节点特征卷积模型如下所示：

经过卷积后可以得到每个节点的特征维度 $X^{\prime} \in \mathbb{R}^{d \times F}$ ，然后通过全局最大池化得到全局表示 $\vec{x} \in \mathbb{R}^{F}$ 。

注意首先需要将相同服务节点划分为同一组中，相同组节点共享权重。

Dependency Model

考虑到组件间的依赖关系，因此论文中利用节点间不同的关系来进行邻居节点特征融合，提出了 D-Arvalus 模型。

基于依赖关系的模型如下图所示：

论文中首先定义了不同边类型，而且节点间依赖关系是已知的，定义了五种类型的关系如下表所示

以定义的类型作为边属性标记，然后将 $z$ 种不同标记通过 one-hot 编码转换为边属性向量 $\vec{r}_{i j} \in \mathbb{N}_{0}^{z}$ 。

为了使用图卷积的方法，需要学习每条边的权重作为邻接矩阵的值，论文中通过节点属性和边属性来学习此权重

$\tilde{A}_{i j}=\frac{\exp \left(\operatorname{ELU}\left(f\left(\vec{x}_{i}, \vec{r}_{i j}, \vec{x}_{j}\right)\right)\right)}{\sum_{k \in \mathcal{N}(i)} \exp \left(\operatorname{ELU}\left(f\left(\vec{x}_{i}, \vec{r}_{i k}, \vec{x}_{k}\right)\right)\right)}$