SEKE 2021丨AAMR：云原生环境下异常微服务自动排序方法

论文标题丨AAMR: Automated Anomalous Microservice Ranking in Cloud-Native Environment
论文来源丨SEKE© 2021
论文链接丨https://ksiresearch.org/seke/seke21paper/paper091.pdf
源码链接丨未开源

TL;DR

论文中提出一种新的微服务根因定位方法 AAMR（Automated Anomalous Microservice Ranking）。主要思想：首先根据实时指标构建服务依赖图，然后自动更新每个服务的异常权重，最后基于 PageRank 随机游走进行根因定位。实验部分在 K8s 集群中验证了 AAMR 优于当前大多数 baselines。

Problem Definition

AAMR 方法主要解决的问题是：确定根因服务 $V_{rc}$ 并对每个根因的关联指标进行排序。

定义的符号表示如下：

Algorithm/Model

AAMR 整体框架如下所示：

主要包含以下五个阶段：

Metrics collections 指标收集
- System-level：物理机或者虚拟机级别的 CPU、内存、网络指标
- Application-level：响应时间、workload等
Anomaly detection 异常检测
仅针对服务响应时间使用 BIRCH 聚类算法进行异常检测，聚类结果 $ADs$ 超过 1 表示异常。定义初始微服务初始异常分数 $AS$ 为 ADs-1。
SDG Construction 服务依赖图构建
根据网络调用关系确定图的调用边，以此得到加权 DAG 的服务依赖图 $G(V,E,W)$ ，没解释初始边权重如何得到 ❓
Weight Updating 权重更新
首先，定义节点 $V_i$ 的异常邻居节点集合 $AAN(V_i)$ , 及其第 2-hop 异常节点集合 $NHAN(V_i)$ 。
然后，定义两个指标度量节点异常程度：
- iScore，即所有邻居节点异常分数均值。
  $\text { iScore }\left(V_{i}\right)=\frac{\sum_{j=1}^{N} A S\left(V_{j}\right)}{\operatorname{Degree}\left(V_{i}\right)}, V_{j} \in A A N\left(V_{i}\right)$
  其中 $N$ 表示 $AAN(V_i)$ 数量。
- xScore
  $x\operatorname{Score}\left(V_{i}\right)=x\left(V_{i}\right)-\frac{\sum_{j=1}^{N} A S\left(V_{j}\right)}{\sum_{j=1}^{N} \operatorname{Degree}\left(V_{j}\right)}, V_{j} \in N H A N\left(V_{i}\right)$
  其中 $x(V_i)$ 表示 $HNAN(V_i)$ 的平均异常分数。
从以上定义看出：iScore 表示 $AAN(V_i)$ 的异常程度，xScore 表示 $NHAN(V_i)$ 的正常程度。综合这两个指标再定义 ixScore：
$i x \operatorname{Score}\left(V_{i}\right)=i \operatorname{Score}\left(V_{i}\right)+x \operatorname{Score}\left(V_{i}\right)$
基于假设就是：如果节点 $V_i$ 其邻居节点都是异常的，但是邻居的邻居却是正常的，那么 $V_i$ 很可能为根因。
考虑到物理机的资源利用率和部署在该物理机上服务的响应时间是相关的，所以计算下前端响应时间 $V_{fe}(|M|_{fe})$ 和资源指标 $h_i(|M|_i)$ 的关系：
$\operatorname{Corr}\left(V_{f e}, h_{i}\right)=\frac{\sum_{t=0}^{T}\left(|M|_{f e}-\overline{|M|}_{f e}\right)\left(|M|_{f e}-\overline{|M|}_{i}\right)}{\sqrt{\sum_{t=0}^{T}\left(|M|_{f e}-\overline{|M|}_{f e}\right)^{2}} \sqrt{\sum_{t=0}^{T}\left(|M|_{f e}-\overline{|M|}_{i}\right)^{2}}}$
正常情况下前端服务和主机的资源利用率值趋于 0 没什么关系。
最后定义微服务 $V_i$ 的异常权重为
$w\left(V_{i}\right)=i x \operatorname{Score}\left(V_{i}\right) \times \max \operatorname{Corr}\left(V_{f e}, h_{i}\right)$
$max$ 应该是想取系统指标中最异常相关的指标。计算得到的异常分数示例如下
Two-phase Ranking 根因排序
- 第一阶段：老生常谈的 Personalized PageRank 得到的根因列表
- 第二阶段：针对根因的异常指标再进行一次排序，这一步没说明用的什么方法，目测是根据指标的异常程度排序。