=v0…vk 频率是否明显偏离k−1 阶路径模型的期望。论文的主要想法是将一阶图中的路径异常检测问题转化为高阶德·布鲁因图Gk 中的边异常检测问题,涉及到一个德·布鲁因图转化过程。
德·布鲁因图转化可以参考我的另一篇博文:德布鲁因图 (De Bruijn graph) 与线图 (Line graph)
转化为高阶德·布鲁因图的好处是:可以将路径长度为k 的路径异常检测问题转化为k 阶德·布鲁因中异常边权重异常检测问题。
k-th order model of paths
对于给定的图G,令Gk=(Vk,Ek) 表示k 阶路径德·布鲁因图,对于每条边e:=(v0…vk−1,v1…vk)∈Ek 利用权重f(e) 表示S 中子路径v0…vk 的频率,Tk 表示Gk 的概率转移矩阵为Tvwk:=∑x∈Vkf(v,x)f(v,w),因此k 阶模型中路径p=v0v1…vl 的概率为∏i=klTvˉi−k⋯vi−1kvi−k+1…vi。
论文中假设随机路径图中的边权重分布符合多变量超几何分布,因此使用这个分布的边缘概率来计算每条边的权重:
Pr(Xvw=f(v,w))=(∑ijΞijm)−1(Ξvwf(v,w))(∑ijΞij−Ξvwm−f(v,w))
然后使用边缘概率和边累计分布来计算每条边的HYPAk 分数,
HYPA(k)(v,w):=Pr(Xvw≤f(v,w))
然后根据计算的分数,再给定阈值α 来判断异常。
这个假设太强了,没看懂…可以参考原文,定义多而且论文写的太绕了…
理解为根据假设:结合随机模拟数据、观测数据和边缘分布概率就能算出k 阶图中每条边的异常分数。
Experiments
实验结果如下图所示
考虑不同参数的对异常路径判断的影响:
Thoughts
- 论文借德·布鲁因图转化了路径异常检测的表示形式,个人感觉是越搞越复杂,而且根据低阶图和线图来构建高阶德布鲁因图效率会非常低。
- 论文中的路径异常检测不是直接检测数据 Sequence 异常,而是根据 Sequence 统计检测给定图中所有的路径的异常,有点容易误导。
- HYPA 方法仅检测了给定序列中子路径出现频率的异常,没有考虑路径属性、结构问题造成的异常。
- 对给定的所有序列进行频率偏差异常检测,说明就算给定的序列中没有异常也会检测出异常路径。
版权声明: 本博客所有文章除特别声明外,均采用 CC BY-NC-SA 4.0 许可协议。转载请注明来自 梦家博客! 打赏
wechat
alipay