论文标题丨 DEEP AUTOENCODING GAUSSIAN MIXTURE MODEL FOR UNSUPERVISED ANOMALY DETECTION
论文来源丨 ICLR 2018
论文链接丨 https://openreview.net/pdf?id=BJJLHbb0-
源码链接丨 https://github.com/danieltan07/dagmm

TL;DR

本文提出 DAGMM 对时间序列数据中异常位置的检测。主要思路:首先对多维数据进行降维,然后采用混合高斯模型对降维后的数据进行密度估计,最后根据密度估计结果检测异常数据。传统模型对降维后的数据进行密度估计。低维的数据会损失信息量,直接使用低维数据进行密度估计的模型容量低、效果较差。传统方法是先训练降维模型,再训练密度估计模型,没能融合两者。作者对降维后的数据进行重建,结合低维数据和重建误差进行密度估计,增大了模型的容量。此外引入正则项,联合降维模型和密度估计模型进行训练。

Algorithm/Model

数据降维后容易区分异常点:

示例

整体 DAGMM 模型架构如下图所示

DAGMM 模型

模型分为压缩网络 (Compression Network) 和估计网络 (Estimation Network) 两个部分:

  • 压缩网络对多维时间序列进行降维,然后对降维后的数据进行重建,最终得到降维向量和重建误差向量。
  • 估计网络对压缩网络传过来的向量进行密度估计,最终得到样本能量,样本能量较高的为异常值,否则为正常值。

Experiments

采用数据集统计信息如下:

数据集

与不同 baselines 对比结果如下:

实验结果

Thoughts

这篇文章主要创新:

  • 将密度估计任务得到的能量函数作为损失函数的正则化项,从而在训练过程中同时考虑了压缩网络和下游的密度估计任务(估计网络)。
  • 采用重建误差和潜向量作为混合高斯模型的输入,来对下游的密度进行估计,这样能够避免只使用降维的潜向量带来的信息损失。