ICML 2021丨SyPI:具有潜在共因的时间序列因果特征选择的充要条件
论文标题丨Necessary and sufficient conditions for causal feature selection in time series with latent common causes
论文来源丨ICML 2021
论文链接丨http://proceedings.mlr.press/v139/mastakouri21a.html
源码链接丨未开源
TL;DR
考虑到具有潜变量的时间序列间存在直接或间接因果关系,论文中提出了一个基于图限制的因果特征选择方法 SyPI,此算法仅需两次条件独立性检测即可判断候选时间序列是否个目标时间序列存在因果关系。在真实数据和模拟实验中,SyPI 拥有接近零的假阳率(FP)和较低的假阴率(FN)。论文中声称提出的方法超越了基于格兰杰因果系列的方法,可以判定时间序列变化的真正根因,因此非常好奇。🧐
Problem Definition
给定观察到的单变量时间序列 为果,需要从其它观测到的多元时间序列 中找到导致时间序列 变化的因。可能存在其它未观测到的多元时间序列 为观测到的时间序列的潜在共因。令 表示任意观测或者未观测到的图节点。
场景举例,例如下图为德国乳制品销售价格的时间序列,发现 Butter 价格曲线突然上涨,但导致这个结果的原因是什么呢?虽然乳制品的价格是相关的,但这些关系往往不代表因果关系。
在介绍下论文中的符号和术语:
- full time graph: 以 为节点构成的无限有向无环图。
- summary graph:以节点 和边 存在的有向图。
- 表示 full time graph 有向路径且不存在中间节点。
- 表示 full time graph 中的有向路径。
- confounding path:表示 full time graph 中 存在共因;
- confounded path:表示 full time graph 中 间同时存在的 confounding path;
- sg-unconfounded (summary graph unconfounded) causal path:在 full time graph 中存在的因果路径,在 summary graph 中不存在的 confounding path。
- 是时间序列 和目标序列 间的 lag。
- 时间序列集合 中对于任意 仅存在一个 lag 则为 single-lag dependencies ,否则称为 multiple-lag dependencies。
Algorithm/Model
SyPI 算法主要思路如下所示:
Experiments
Thoughts
这篇论文中提出的时间序列因果挖掘方法非常符合直观感受,考虑了隐变量对观测变量的因果影响。实际中时间序列表现出相关特征变化的果但难以确定造成这种变化的因。
本博客所有文章除特别声明外,均采用 CC BY-NC-SA 4.0 许可协议。转载请注明来自 梦家博客!
评论
TwikooValine