ICDM 2021丨时间序列相关研究论文汇总
文章系列:
IEEE ICDM(International Conference on Data Mining)是世界上数据挖掘领域的顶级会议之一,该会议涵盖了数据挖掘的所有方面,包括算法、软件、系统和应用,旨在推动数据挖掘领域的最先进技术。被中国计算机协会 CCF 推荐为 B类会议。
IEEE ICDM 2021 共接收 990 篇投稿,平均接受率为 20.0%,主要包含 2 tracks :Regular papers(98/990=9.9%)和 Short papers(100)。
本文主要整下 Regular papers 下时间序列相关研究,其研究主题包括但不限于:时序预测 & 异常检测 & 时序生成 & 时序相似性
01
论文标题 Towards Interpretability and Personalization: A Predictive Framework for Clinical Time-series Analysis
论文地址 https://ieeexplore.ieee.org/document/9679181
源码链接 暂未开源
主要内容 临床时间序列正受到数据挖掘和机器学习界的长期关注,并推动了各种数据驱动的应用。从临床时间序列中识别相似的病人或亚群是在临床实践中设计有针对性的治疗的一个重要步骤。然而,现有的大多数方法要么是纯粹的无监督的,倾向于忽视病人的结果信息,要么是不能通过监督学习产生个性化的病人代表,因此可能无法识别 “真正的相似病人”(即在结果和个人结果相关的临床变量方面相似的病人)。为了解决这些限制,我们提出了一个新的预测性临床时间序列分析框架。具体来说,我们的框架使用特定的任务信息来排除每个病人数据中与任务不相关的因素,并生成贡献分数,以揭示这些因素对病人结果的重要性。然后,我们提出了一种病人表征构建方法,通过结合剩余因素及其贡献分值来生成与任务相关的个性化表征。最后,可以进行相似性测量或聚类分析。我们在三个真实世界的临床时间序列数据集上评估了我们的框架,实证证明我们的框架在预测性能、相似性测量和聚类方面取得了改进,从而有可能使基于患者相似性的精准医疗应用受益。
02
论文标题 Towards Generating Real-World Time Series Data
论文地址 https://ieeexplore.ieee.org/document/9679006
源码链接 https://seqml.github.io/rtsgan
主要内容 近年来,时间序列数据的生成已经引起了越来越多的关注。一些基于生成对抗网络(GAN)的方法已经被提出来解决这个问题,通常的假设是目标时间序列数据是格式化的和完整的。然而,现实世界的时间序列(RTS)数据离这个乌托邦还很远,例如,具有可变长度的长序列和丰富的缺失数据为设计强大的生成算法带来了难以解决的挑战。在本文中,我们为RTS数据提出了一个新的生成框架–RTSGAN,以解决上述挑战。RTSGAN首先学习一个编码器-解码器模块,该模块提供了时间序列实例和固定维度潜伏向量之间的映射,然后学习一个生成模块来生成相同潜伏空间中的向量。通过结合生成器和解码器,RTSGAN能够生成尊重原始特征分布和时间动态的RTS。为了生成具有缺失值的时间序列,我们进一步为RTSGAN配备了一个观察嵌入层和一个决定-生成解码器,以更好地利用信息性缺失模式。在四个RTS数据集上的实验表明,所提出的框架在下游分类和预测任务的合成数据效用方面优于以前的生成方法。
03
论文标题 Continual Learning for Multivariate Time Series Tasks with Variable Input Dimensions
论文地址 https://ieeexplore.ieee.org/document/9679108
源码链接 暂未开源
主要内容 我们考虑了一系列相关的多变量时间序列学习任务,例如从多传感器数据的时间序列中预测机器的不同实例的故障,或者从多个可穿戴传感器中对不同个体的活动识别任务。我们关注的是在这种情况下出现的两个未被充分探索的实际挑战。(i) 每个任务可能有一个不同的传感器子集,即提供底层 "系统 "的不同部分观测。在前一种情况下,这种限制可能是由于不同的制造商,而在后一种情况下,人们或多或少地佩戴了测量设备(ii)一旦在任务层面观察到数据,我们不允许存储或重新访问来自任务的数据。这可能是由于对人的隐私考虑,或者机器所有者的法律限制。然而,我们希望(a)利用已完成任务的经验提高后续任务的性能,以及(b)继续在过去的任务中表现得更好,例如,在从随后观察到的任务中学习后,更新模型并提高对甚至第一台机器的预测。我们注意到,现有的持续学习方法没有考虑到由于不同的传感器子集在不同的任务中可用而产生的输入维度的可变性,并且难以适应这种可变输入维度(VID)的任务。在这项工作中,我们解决了现有方法的这个缺点。为此,我们学习特定任务的生成模型和分类器,并使用这些模型和分类器来增加目标任务的数据。由于不同任务的输入维度不同,我们提出了一个基于图神经网络的新型调节模块,以帮助标准的递归神经网络。我们在三个公开可用的数据集上评估了所提出的方法的功效,这些数据集对应于两个活动识别任务(分类)和一个预知任务(回归)。我们证明,在不储存数据的情况下,从VID任务中不断学习,有可能显著提高未来和以前任务的性能。
04
论文标题 CASPITA: Mining Statistically Significant Paths in Time Series Data from an Unknown Network
论文地址 https://ieeexplore.ieee.org/document/9679098
源码链接 https://github.com/VandinLab/CASPITA
主要内容 时间序列数据的挖掘在多个领域都有应用,在很多情况下,数据是由网络产生的,时间序列代表了这种网络上的路径。在这项工作中,我们考虑的情况是,数据集,即时间序列的集合,是由一个未知的底层网络产生的,我们研究的问题是挖掘统计意义上的路径,即在底层网络的某些特征定义的分布下,在数据集中观察到的出现的路径数量是意想不到的。这种问题的一个主要挑战是底层网络是未知的,因此,人们无法直接识别这种路径。然后,我们提出了CASPITA,一种在未知的底层网络产生的时间序列数据中挖掘统计学意义上的路径的算法,该算法考虑了基于观察到的数据集的有意义的特征的生成性空模型,同时在错误发现方面提供保证。我们对伪人工和真实数据的广泛评估表明,CASPITA能够有效地挖掘大量的重要路径,同时对假阳性提供保证。
05
论文标题 Multi-way Time Series Join on Multi-length Patterns
论文地址 https://ieeexplore.ieee.org/document/9679018
源码链接 暂未开源
主要内容 本文介绍了一个新的模式挖掘任务,即考虑根据任意长度的子序列(即模式)的数量来对齐或连接一组时间序列。沿着共同的模式连接多个时间序列在聚类和总结大型时间序列数据集方面是至关重要的。由于计算成本很高,用精确的算法来连接数以百计的时间序列是不现实的。本文提出了一种名为MultiPAL的快速算法,以交互式速度连接多个时间序列,以总结大型时间序列数据集。该算法利用单个时间序列的Matrix Profiles来实现对可能的连接的贪婪搜索。该算法比精确的解决方案要快几个数量级,并且可以利用数百个矩阵剖面。我们对我们的算法进行了评估,以对来自各种现实世界领域的数据进行顺序挖掘,包括电源管理和生物声学监测。
06
论文标题 Attentive Neural Controlled Differential Equations for Time-series Classification and Forecasting
论文地址 https://ieeexplore.ieee.org/document/9679144
源码链接 暂未开源
主要内容 在过去的几年里,受微分方程启发的神经网络层出不穷,其中神经常微分方程(NODE)和神经控制微分方程(NCDE)是两个代表性的例子。在理论上,NCDEs比NODEs对时间序列数据表现出更好的表示学习能力。特别是,众所周知,NCDEs适用于处理不规则的时间序列数据。尽管NODEs已经被成功地扩展到采用注意力,但将注意力整合到NCDEs的方法还没有被研究。为此,我们提出了用于时间序列分类和预测的A-ttentive N-eural C-ontrolled D-ifferential E-quations(ANCDEs),其中使用了双NCDEs:一个用于生成注意力值,另一个用于为下游机器学习任务进化隐藏向量。我们在三个真实世界的时间序列数据集和十个基线上进行了实验。在丢掉一些数值后,我们还在不规则的时间序列上进行了实验。我们的方法在所有情况下都以非微不足道的幅度显示出最佳的准确性。我们的视觉效果也表明,所提出的注意力机制通过聚焦于关键信息而如期工作。
07
论文标题 SSDNet: State Space Decomposition Neural Network for Time Series Forecasting
论文地址 https://ieeexplore.ieee.org/document/9679135
源码链接 暂未开源
主要内容 在本文中,我们介绍了SSDNet,一种用于时间序列预测的新型深度学习方法。SSDNet将Transformer架构与状态空间模型相结合,以提供概率和可解释的预测,包括趋势和季节性成分以及对预测很重要的先前时间步骤。Transformer架构被用来学习时间模式并直接有效地估计状态空间模型的参数,而不需要卡尔曼过滤器。我们在五个数据集上全面评估了SSDNet的性能,表明SSDNet在准确性和速度方面是一个有效的方法,超过了最先进的深度学习和统计方法,并且能够提供有意义的趋势和季节性成分。
08
论文标题 Space Meets Time: Local Spacetime Neural Network For Traffic Flow Forecasting
论文地址 https://ieeexplore.ieee.org/document/9679008
源码链接 暂未开源
主要内容 交通流预测是城市计算中的一项重要任务。由于交通流经常表现出内在的和潜在的时空关联,而这些关联无法通过单独提取交通数据的空间和时间模式来识别,因此出现了挑战。我们认为,这种相关性是普遍存在的,在交通流中起着关键作用。我们提出了时空间隔学习作为一种范式,通过对空间和时间特征的统一分析来明确地捕捉这些关联性。与最先进的方法不同的是,这些方法只限于特定的道路网络,我们对普遍的时空关联进行建模,这些关联可以从城市转移到城市。为此,我们提出了一个新的时空间隔学习框架,该框架构建了一个交通传感器的局部时空背景,包括来自其邻居在接近时间点的数据。基于这一想法,我们引入了本地时空神经网络(STNN),它采用了新颖的时空卷积和注意力机制来学习普遍的时空相关性。所提出的STNN可以捕捉到本地交通模式,这并不取决于特定的网络结构。因此,经过训练的STNN模型可以应用于任何未见过的交通网络。我们在两个公开的真实世界交通数据集和一个动态网络的模拟数据集上评估了拟议的STNN。实验结果表明,STNN不仅比最先进的方法提高了15%的预测精度,而且在处理交通网络发生动态变化的情况下也很有效,并具有卓越的泛化能力。
09
论文标题 Ultra fast warping window optimization for Dynamic Time Warping
论文地址 https://ieeexplore.ieee.org/document/9679066
源码链接 https://github.com/ChangWeiTan/UltraFastWWS
主要内容 动态时间扭曲(DTW)的相似性测量在许多时间序列数据挖掘应用中被广泛使用。它计算出两个序列对齐的成本,较小的成本表明序列更相似。大多数应用需要调整DTW的扭曲窗口(WW)参数,以达到良好的性能。这个参数控制了允许的翘曲量,减少了病态排列,并有加快计算速度的额外好处。然而,由于DTW本身是非常昂贵的,学习WW是一个繁重的过程,即使是只包含几千个序列的数据集也需要好几天的时间。在本文中,我们提出了ULTRAFASTWWSEARCH,这是一种新的算法,能够比最先进的FASTWWSEARCH方法更快地学习WW。ULTRAFASTWWSEARCH建立在后者的基础上,利用新的高效精确DTW算法的特性,支持早期放弃和修剪(EAP)。我们在UCR档案的128个数据集上显示,ULTRAFASTWWSEARCH比以前的技术水平快一个数量级。