基于机器学习和深度学习的图数据异常检测综述
背景
图 (Graph) 普遍用于建模结构/关系性数据,节点 (vertices/nodes) 表示实体,边 (edges) 表示实体间存在的关系。
异常检测(Anomaly detection)指从数据中挖掘出与大部分对象不同的目标对象(异常点/离群点),这些目标对象的分布和产生机制与其它对象不同。
图异常检测(Graph anomaly detection)问题是指:
Object-level:在单个图中识别出异常的图对象,例如异常节点、异常边或者异常子图(node/edge/sug-graph-level anomalies);
Graph-level:在图集合/图序列中识别出异常图;
传统异常检测方法和图异常检测方法的区别如下图所示,传统方法不能高效地用于大规模图学习任务并且难以捕获对象节点间的关系,因此基于深度学习的图异常检测方法逐渐兴起,尤其是图神经网络 GNN 的热潮。
但基于深度学习的图异常检测方法存在非常多的局限性:
- 如何设计异常感知的模型目标函数,可以在模型训练过程中区分异常对象?
- 如何解释模型检测到的异常,尤其在于金融等传统行业?
- 如何提高模型的的训练效率并且节约计算资源?
- 如何在缺少监督信息的情况下优化深度模型的超参数?
面向图数据的异常检测可以应用于社会生活的各个领域,如金融、互联网安全、社交关系挖掘、电信诈骗检测等等。
本文主要学习和总结下当前基于深度学习的图异常检测算法,主要依赖的论文大纲 [1] 并对其进行简化和补充。
算法模型
根据算法模型的检测级别图异常检测任务大体上分为三类:
- Node-Level:图异常检测丨异常节点检测算法综述
- Edge-Level:图异常检测丨异常边检测算法综述
- (Sub)Graph-Level:图异常检测丨异常(子)图检测算法综述
在上述分类下可以根据图数据类型可以进一步区分,主要包括:① 静态图:简单图,属性图 ② 动态图。 📢 同一模型可以解决不同级别的问题。
由于篇幅较长,因此在这个系列中会分三部分进行介绍,最后给出总结。
数据集
目前已有大量的图数据集开源,可在论文提供的数据源下载:
个人收集:图神经网络 GNN 基准数据集汇总
图数据集,点击查看~
学习资源
开源算法模型
目前开源但不局限于以下内容:
本博客所有文章除特别声明外,均采用 CC BY-NC-SA 4.0 许可协议。转载请注明来自 梦家博客!
评论
TwikooValine