ACM SIGKDD(Conference on Knowledge Discovery and Data Mining, KDD)是全球最大规模的国际数据科学会议,将展示知识发现和数据挖掘方面的最新研究成果。SIG 是 ACM 中关于知识发现和数据挖掘的特别兴趣小组,KDD 知识发现和数据挖掘年度国际会议是数据挖掘、数据科学和分析领域的首屈一指的跨学科会议,被中国计算机协会 CCF 推荐为 A类会议

KDD 2021 的论文接收结果:共有1541篇有效投稿,其中238篇论文被接收,接收率为15.44%。相比 KDD 2020 的接收率 16.9% (216/1279)有所下降。


本文主要整理下 KDD 2021 Research Track & Applied Data Science Track 中时间序列相关研究成果。

01

论文标题:MiniRocket: A Very Fast (Almost) Deterministic Transform for Time Series Classification

论文地址https://dl.acm.org/doi/abs/10.1145/3447548.3467231

源码链接https://github.com/angus924/minirocket

主要内容:Rocket 通过使用随机卷积核转换输入时间序列,并使用转换后的特征来训练线性分类器,从而以大多数现有方法的一小部分计算费用实现了时间序列分类的最先进精度。 我们将 Rocket 重新构造为一种新方法 MiniRocket。 MiniRocket 在更大的数据集上比 Rocket 快 75 倍,并且几乎是确定性的(并且可选地,完全确定性),同时保持基本相同的准确性。 使用这种方法,可以在 10 分钟内对来自 UCR 档案的所有 109 个数据集的分类器进行训练和测试,以达到最先进的准确度。 MiniRocket 比任何其他具有可比精度的方法(包括 Rocket)快得多,并且比任何其他远程类似计算成本的方法都更准确。

02

论文标题:Deep Learning Embeddings for Data Series Similarity Search

论文地址https://dl.acm.org/doi/10.1145/3447548.3467317

源码链接https://github.com/qtwang/SEAnet

主要内容:(越来越大的)数据系列集合分析的一个关键操作是相似性搜索。根据最近的研究,基于 SAX 的索引为相似性搜索任务提供了最先进的性能。然而,它们的性能在高频、弱相关、过度嘈杂或其他特定于数据集的属性下滞后。在这项工作中,我们提出了深度嵌入逼近 (DEA),这是一种基于深度神经网络的新型数据系列汇总技术。此外,我们描述了 SEAnet,这是一种专为学习 DEA 而设计的新颖架构,它将平方和保留属性引入到深度网络设计中。最后,我们提出了一种新的采样策略 SEASam,它允许 SEAnet 有效地训练海量数据集。与其他最先进的传统和 DEA 解决方案相比,在 7 个不同的合成和真实数据集上的综合实验验证了使用 SEAnet 学习的 DEA 在提供高质量数据系列摘要和相似性搜索结果方面的优势。

03

论文标题:Fast and Accurate Partial Fourier Transform for Time Series Data

论文地址https://dl.acm.org/doi/10.1145/3447548.3467293

源码链接https://github.com/snudatalab/PFT

主要内容:给定一个时间序列向量,我们如何有效地检测异常?一种广泛使用的方法是使用快速傅里叶变换(FFT)来计算傅里叶系数,取前几个系数,丢弃剩余的小系数,重建原始时间序列以找到误差较大的点。尽管使用普遍,但该方法需要计算所有傅立叶系数,如果输入长度很大或需要执行许多 FFT 运算,这可能很麻烦。

在本文中,我们提出了部分傅立叶变换 (PFT),这是一种仅计算部分傅立叶系数的高效且准确的算法。 PFT使用多项式逼近了一部分旋转因子(三角常数),从而降低了由于许多旋转因子混合而导致的计算复杂度。我们根据输入和输出大小以及容差推导出 PFT 的渐近时间复杂度。我们还展示了 PFT 提供了一个设置任意近似误差界限的选项,这在快速评估至关重要时尤其有用。实验结果表明,PFT 优于当前最先进的算法,在不牺牲精度的情况下,对于足够小的输出尺寸,速度提高了一个数量级。此外,我们展示了 PFT 在现实世界异常检测中的准确性和有效性,并对股票价格数据中的异常进行了解释。

04

论文标题:A Transformer-based Framework for Multivariate Time Series Representation Learning

论文地址https://dl.acm.org/doi/10.1145/3447548.3467401

源码链接https://github.com/gzerveas/mvts_transformer

主要内容:我们提出了一种基于变压器编码器架构的多元时间序列表示学习的新框架。该框架包括一个无监督的预训练方案,它可以在下游任务上提供比完全监督学习更大的性能优势,既可以利用但甚至不利用额外的未标记数据,即通过重用现有的数据样本。在来自不同领域和具有不同特征的多个公共多元时间序列数据集上评估我们的框架,我们证明它的性能明显优于目前最好的回归和分类方法,即使对于仅包含几百个训练样本的数据集也是如此。鉴于科学和工业中几乎所有领域对无监督学习的明显兴趣,这些发现代表了一个重要的里程碑,展示了第一种无监督方法,可推动多元时间序列回归和分类。

05

论文标题:ST-Norm: Spatial and Temporal Normalization for Multi-variate Time Series Forecasting

论文地址https://dl.acm.org/doi/10.1145/3447548.3467330

源码链接https://github.com/JLDeng/ST-Norm

主要内容:多变量时间序列 (MTS) 数据是现实世界中普遍存在的一类数据抽象。 MTS 的任何实例都是从混合动力系统生成的,它们的具体动力通常是未知的。这种动力系统的混合性质是复杂的外部影响的结果,从时间上看可以概括为高频和低频,从空间上看可以概括为全局和局部。这些影响也决定了 MTS 的未来发展,这使得它们在时间序列预测任务中至关重要。然而,传统方法在从原始数据中解开由各种影响产生的成分方面面临着固有的困难。为此,我们提出了两种归一化模块——时间归一化和空间归一化——分别细化原始数据下的高频分量和局部分量。此外,这两个模块都可以很容易地集成到规范的深度学习架构中,例如 Wavenet 和 Transformer。对三个数据集进行了广泛的实验,以说明通过额外的归一化模块,与现有的 MTS 模型相比,规范体系结构的性能可以在 MTS 的应用中大幅提高,并获得最先进的结果。

06

论文标题:Statistical Models Coupling Allows for Complex Local Multivariate Time Series Analysis

论文地址https://dl.acm.org/doi/10.1145/3447548.3467362

源码链接:暂未开源

主要内容:多变量时间序列的可用性增加要求开发能够对其进行整体分析的合适方法。为此,我们提出了一种新的灵活方法,用于数据挖掘、预测和因果模式检测,它利用了隐马尔可夫模型和高斯图形模型的耦合。给定多元非平稳时间序列,所提出的方法同时对时间点进行聚类,同时了解变量之间的概率关系。聚类将时间点划分为固定子组,其潜在分布可以通过图形模型推断出来。可以进一步利用这种耦合来构建时变回归模型,该模型既可以进行预测,又可以深入了解因果模式的存在。我们在合成数据上广泛验证了所提出的方法,表明它在聚类、图形模型推理和预测方面比现有技术具有更好的性能。最后,为了证明我们的方法在现实场景中的适用性,我们利用其特征来构建有利可图的投资组合。结果表明,我们能够通过将利润从 -%20 提高到显着的 80% 来改进现有技术。

07

论文标题:Causal and Interpretable Rules for Time Series Analysis

论文地址https://dl.acm.org/doi/10.1145/3447548.3467161

源码链接:暂未开源

主要内容:工业环境中复杂基础设施的数量正在增长,并且无法避免无法解释的重复事件,例如可能对经济和环境产生影响的故障或故障。为了理解这些现象,传感器被放置在不同的基础设施上,以跟踪、监控和控制系统的动态。对这些数据的因果研究允许进行预测性和规定性维护。它有助于了解问题的出现并找到反事实结果以更好地操作和化解事件。在本文中,我们介绍了一种新方法,该方法结合了用于调查流行病学中疾病的急性触发因素的病例交叉设计和 Apriori 算法,后者是一种允许在数据集中查找相关规则的数据挖掘技术。由此产生的时间序列因果算法在我们的应用案例中提取了有趣的规则,这是一个非线性时间序列数据集。此外,基于预测规则的算法证明了所提出方法的潜力。

08

论文标题:Multivariate Time Series Anomaly Detection and Interpretation using Hierarchical Inter-Metric and Temporal Embedding

论文地址https://dl.acm.org/doi/10.1145/3447548.3467075

源码链接https://github.com/zhhlee/InterFusion

主要内容:异常检测是监控实体(例如制造系统和互联网服务)的各种状态(即指标)的关键任务,这些实体通常以多元时间序列(MTS)为特征。在实践中,重要的是精确检测异常,并通过定位一组最异常的指标来解释检测到的异常,以进一步辅助故障排查。在本文中,我们提出了 InterFusion,这是一种无监督方法,可同时为 MTS 的度量间和时间依赖性建模。其核心思想是通过具有两个随机潜在变量的分层变分自动编码器对 MTS 数据中的正常模式进行建模,每个潜在变量都学习低维的度量间或时间嵌入。此外,我们提出了一种基于 MCMC 的方法,以在异常部分获得合理的嵌入和重建,用于 MTS 异常解释。我们的评估实验是在来自不同工业领域的四个真实世界数据集上进行的(三个现有数据集和一个新发布的数据集,通过我们的 InterFusion 试点部署收集)。 InterFusion 实现了高于 0.94 的平均异常检测 F1-Score 和 0.87 的异常解释性能,显着优于最近最先进的 MTS 异常检测方法。

09

论文标题:Practical Approach to Asynchronous Multivariate Time Series Anomaly Detection and Localization

论文地址https://dl.acm.org/doi/10.1145/3447548.3467174

源码链接https://github.com/eBay/RANSynCoders

主要内容:eBay 的工程师利用强大的方法来监控 IT 系统信号的异常情况。然而,不断增长的信号规模,无论是数量还是维度,都压倒了传统的统计状态空间或监督学习工具。因此,最近的研究寻求基于无监督深度学习的最先进方法。然而,我们在实施这些方法时遇到了缺陷,例如需要部分监督和对高维数据集的弱点,以及本文讨论的其他原因。我们提出了一种从大型多元集合中推断异常的实用方法。我们在现实世界的应用程序中观察到大量时间序列,它们表现出异步和一致的重复变化,例如 IT、天气、公用事业和交通。我们的解决方案旨在利用这种行为。该解决方案利用对预训练自动编码器的潜在表示的频谱分析来提取信号中的主要频率,然后将其用于后续网络,该网络学习信号中的相移并生成原始多元变量的同步表示。然后将同步多元变量的随机子集输入到一组自动编码器中,学习以最小化分位数重建损失,然后用于基于多数投票来推断和定位异常。我们使用公共数据集和 eBay 数据的参考评估方法对这种方法进行了基准测试。此外,我们解决了参考评估方法的局限性,并提出了一种更现实的评估方法。

10

论文标题:Time Series Anomaly Detection for Cyber-physical Systems via Neural System Identification and Bayesian Filtering

论文地址https://dl.acm.org/doi/10.1145/3447548.3467137

源码链接https://github.com/NSIBF/NSIBF

主要内容:AIoT 技术的最新进展导致利用机器学习算法来检测网络物理系统 (CPS) 的操作故障越来越受欢迎。在其基本形式中,异常检测模块监控来自物理工厂的传感器测量值和执行器状态,并检测这些测量值中的异常以识别异常操作状态。然而,为 CPS 构建有效的异常检测模型相当具有挑战性,因为该模型必须在存在高度复杂的系统动态和未知量传感器噪声的情况下准确检测异常。在这项工作中,我们提出了一种新的时间序列异常检测方法,称为神经系统识别和贝叶斯过滤 (NSIBF),其中提出了一种特制的神经网络架构用于系统识别,即在动态状态空间中捕获 CPS 的动态模型;然后,贝叶斯滤波算法自然地应用于“已识别”状态空间模型之上,通过随时间递归地跟踪系统隐藏状态的不确定性来进行稳健的异常检测。我们在合成和三个真实世界的 CPS 数据集上使用所提出的方法提供定性和定量实验,表明 NSIBF 与最先进的方法相比具有优势,在 CPS 中的异常检测方面有相当大的改进。



联系作者