时间序列丨基于 TimeGAN 模型生成时间序列数据及其 Python 实践
背景 在很多情况下缺失真实场景的数据来训练模型,因此学术界提出非常多的自监督、半监督、无监督学习模型来缓解训练数据不足的情况。但整体而言,缺少监督数据训练的模型性能往往会弱于监督模型,目前落地的大部分 AI-DNN 都是建立在海量的训练数据基础上。 为了提高模型的学习能力,可以利用 Data Augmentation 技术来扩大训练数据集,这一方法在 CV 领域尤为成熟。虽然人工生成的数据与真实场景存在一定的 gap,但对模型的性能仍会有一定提升。 对于时序领域,本文学习下经典的时间序列数据生成模型 TimeGAN,并基于 ydata-synthetic 库验证其生成的时间序列效果。 TimeGAN TimeGAN (Time-series Generative Adversarial Network) 是一种时间序列数据生成模型,由加州大学 Jinsung Yoon 等人在 NeurIPS 2019 中提出。[1] 主要想法是将无监督 GAN 方法的多功能性与对有监督的自回归模型提供的条件概率原理结合,来生成保留时间动态的时间序列。详细理论不再赘述,主要想测试下其性能和生成序列的效果 ...
时间序列丨九种经典的基于「自回归+移动平均」序列预测模型及其 Python 实践
背景 这篇文章中主要学习 & 总结下经典的基于「自回归」和「滑动平均」的时间序列预测模型及其变体形式,毕竟经典的才是最实用的!🤔 主要包含但不局限于以下九种: 单变量时间序列预测 「AR」Autoregression,自回归模型; 「MA」Moving Average,滑动平均模型; 「ARMA」Autoregressive Moving Average,自回归滑动平均模型; 「ARIMA」Autoregressive Integrated Moving Average,差分自回归移动平均模型; 「SARIMA」Seasonal Autoregressive Integrated Moving-Average,季节性差分自回归移动平均模型; 「SARIMAX」Seasonal Autoregressive Integrated Moving-Average with Exogenous Regressors,外生变量的季节性差分自回归移动平均模型; 多变量时间序列预测 「VAR」Vector Autoregression,向量自回归模型; 「VARMA」Vect ...
技术杂谈丨Latex 语法给数学公式渲染颜色
背景 在一些特殊场景下给公式符号添加颜色,以便区分不同项表达的含义。主要还是为了更炫一点!!!🤪 需要达到的效果如下: 语法 对于公式颜色使用 \color{颜色} 语法即可; 例如 eix=cos(x)+isin(x)\color{red} e^{i x}=\cos (x)+i \sin (x) eix=cos(x)+isin(x) 对应的语法为: 1\color{red} e^{i x}=\cos (x)+i \sin (x) 📢 注意: \color{颜色} 会将这个位置之后所有内容都变成指定的颜色。如果仅需更改部分颜色,将 \color{颜色} 与部分公式放在同一 {} 内即可。 例如 eix=cos(x)+isin(x){\color{red} e^{i x}}={\color{green}\cos (x)}+{\color{purple}i \sin (x)} eix=cos(x)+isin(x) 对应的语法为: 1{\color& ...
SEKE 2021丨AAMR:云原生环境下异常微服务自动排序方法
论文标题丨AAMR: Automated Anomalous Microservice Ranking in Cloud-Native Environment 论文来源丨SEKE© 2021 论文链接丨https://ksiresearch.org/seke/seke21paper/paper091.pdf 源码链接丨未开源 TL;DR 论文中提出一种新的微服务根因定位方法 AAMR(Automated Anomalous Microservice Ranking)。主要思想:首先根据实时指标构建服务依赖图,然后自动更新每个服务的异常权重,最后基于 PageRank 随机游走进行根因定位。实验部分在 K8s 集群中验证了 AAMR 优于当前大多数 baselines。 Problem Definition AAMR 方法主要解决的问题是:确定根因服务 VrcV_{rc}Vrc 并对每个根因的关联指标进行排序。 定义的符号表示如下: Algorithm/Model AAMR 整体框架如下所示: 主要包含以下五个阶段: Metrics collections 指标收集 Sys ...
FSE 2021丨Onion:云系统中事件日志识别方案
论文标题丨Onion: identifying incident-indicating logs for cloud systems 论文来源丨ESEC/FSE 2021 论文链接丨https://dl.acm.org/doi/10.1145/3468264.3473919 源码链接丨未开源 TL;DR 论文中提出一种自动化解决方案 Onion 来精确高效地定位故障日志,首先指出定位故障日志的三个标准:一致性、影响性、双向差异,然后提出一种新颖的日志聚合方法 log clique 可以同时满足这三种标准。为了得到 log clique 论文中提出了一种事件感知的 log 表示和聚类技术,然后对 clique 进行对比分析来识别事件日志。实验部分在标注好的日志数据集中验证了 Onion 的性能,可以达到 0.95 F1-score 并且可以在分钟级内处理百万条日志,应用在真实场景微软云系统中已定性定量证实 Onion 的有效性。 Algorithm/Model 首先介绍下论文中提出的名词概念: incident-indicating logs:指受事件影响的不同服务器日志其所描述的是同 ...
机器学习丨离群点检测算法 LOF 及其 Python 实践
背景 离群点检测算法具有非常强的实际意义和广泛的应用前景,包括欺诈检测、网络性能和活动监控等等。 📢 离群点和噪声有区别:噪声是观测值的随机误差和方差;离群点属于观测值,可能是真实数据产生或者噪声产生,整体而言是和大部分观测值明显不同的观测值。 本文主要学习下基于密度的离群点检测方法中最具有代表性的算法:局部离群因子检测算法 (Local Outlier Factor, LOF) [1]。 LOF 算法 基于密度的离群点检测方法基本假设:非离群点对象周围的密度与其邻域周围的密度类似,而离群点对象周围的密度显著不同于其邻域周围的密度。 如下图所示: 局部离群因子检测算法 LOF 是一种典型的基于密度的高精度离群点检测方法,通过给每个数据点都分配一个依赖于邻域密度的离群因子 LOFLOFLOF,进而判断该数据点是否为离群点。若 LOF≫1LOF\gg 1LOF≫1,则该数据点为离群点;若 LOF≈1LOF \approx 1LOF≈1,则该数据点为正常数据点。 假设当前的样本集合 DDD 包含 nnn 个数据点,其数据维度为 mmm,数据点表示为 ∀Xi=(xi1,xi2,⋯ ,xim ...
IJCAI 2021丨时间序列相关研究论文汇总
文章系列: ICDE 2021丨时间序列相关研究论文汇总 ICML 2021丨时间序列相关研究论文汇总 KDD 2021丨时间序列相关研究论文汇总 IJCAI 2021丨时间序列相关研究论文汇总 国际人工智能联合会议 IJCAI(International Joint Conference on Artificial Intelligence)主要由国际人工智能联合会议组织和东道国国家人工智能学会联合主办(每两年举行一次),旨在通过会议记录、书籍、录像和教材的方式传播人工智能在会议上提出了尖端的科学成果。被中国计算机协会 CCF 推荐为 A类会议。 IJCAI 2021 论文接收成果:共收到 4204 篇投稿,其中 587 篇论文被接收,接收率为 13.9%。相比于 IJCAI 2020 接受率 12.6%(592/4717)有所上升。 本文主要梳理下 IJCAI 2021 中 Main Track & Survey Papers & Journal Papers 的时间序列相关前沿研究成果,主要方向包括:时间序列预测,时间序列分类,时序因果挖掘,多元时序分析 ...
CIKM 2021丨CloudRCA:云计算平台下的根因分析框架
论文标题丨CloudRCA: A Root Cause Analysis Framework for Cloud Computing Platforms 论文来源丨CIKM 2021 论文链接丨https://dl.acm.org/doi/abs/10.1145/3459637.3481903 源码链接丨暂未开源 TL;DR 这篇论文中提出了一种新颖的根因分析框架 CloudRCA,基于当前的异常检测和日志技术来提取多源异质数据(KPIs、logs 和 topology)的重要特征,然后利用分层贝叶斯网络(KHBN)对提取的特征进行根因分析。实验结果表明 CloudRCA ① F1-score 优于当前其它根因定位方法 ② 基于 KHBN 可以处理新类型的根因 ③ 在算法配置方面鲁棒性更强 ④ 适用于不同规模的数据和特征大小。在阿里生产环境中可以提升 10% 定位准确率来节省 SRE 20% 定位时间。 Algorithm/Model CloudRCA 主要框架如下图所示 主要需要处理三种数据源: Kpis:时间序列异常检测算法提取特征; Logs:日志聚类提取特征; Topol ...
ICML 2021丨时间序列相关研究论文汇总
文章系列: ICDE 2021丨时间序列相关研究论文汇总 ICML 2021丨时间序列相关研究论文汇总 KDD 2021丨时间序列相关研究论文汇总 IJCAI 2021丨时间序列相关研究论文汇总 ICML(International Conference on Machine Learning, ICML)是由国际机器学习学会(IMLS)主办的年度机器学习国际顶级会议,是推机器学习领域发展的重要会议,且被中国计算机协会 CCF 推荐为 A类会议。 ICML 2021 的论文接收结果:共有5513篇有效投稿,其中1184篇论文被接收,接收率为21.4%。在被接收论文中,有166篇长文和1018篇短文。 本文先整理下 ICML 2021 Long Representation 中时间序列相关研究成果。 主要方向包括但不局限于以下:时序预测、时序异常检测、时序分类、时序因果分析、多元时序等。 Papers 01 论文标题 Voice2Series: Reprogramming Acoustic Models for Time Series Classification 论文地址 h ...
ICDE 2021丨时间序列相关研究论文汇总
文章系列: ICDE 2021丨时间序列相关研究论文汇总 ICML 2021丨时间序列相关研究论文汇总 KDD 2021丨时间序列相关研究论文汇总 IJCAI 2021丨时间序列相关研究论文汇总 IEEE ICDE(IEEE International Conference on Data Engineering)是 IEEE 的旗舰会议,和 SIGMOD、VLDB 并称数据库领域三大顶会,旨在解决设计、构建、管理和评估高级数据密集型系统和应用程序中的研究问题,是研究人员、从业人员、开发人员和用户探索前沿思想并交流技术、工具和经验的领先论坛。被中国计算机协会 CCF 推荐为 A类会议。 IEEE ICDE 会议的多年平均接受率为 19.1%,暂未披露 2021 论文接收详情。 本文主要整理下 ICDE 2021 Research Track (Full & Short) & TKDE Posters 中时间序列相关研究成果。 01 论文标题 EnhanceNet: Plugin Neural Networks for Enhancing Correlated ...
KDD 2021丨HALO:云系统中层次感知的多维故障定位模型
论文标题丨HALO: Hierarchy-aware Fault Localization for Cloud Systems 论文来源丨KDD 2021 论文链接丨https://dl.acm.org/doi/abs/10.1145/3447548.3467190 源码链接丨RE:https://github.com/lotcher/HALO TL;DR 一个典型的云系统有大量遥测数据,这些数据由无处不在的软件监控器收集,这些监控器不断跟踪系统的健康状态。遥测数据本质上是多维数据,其中包含被监控系统的属性和失败/成功状态。通过识别故障最集中的属性值组合(我们称之为故障指示组合),我们可以将系统故障的原因定位到更小的范围内,从而便于故障诊断。然而,由于云遥测数据中的组合爆炸问题和潜在的层次结构,以有效的方式将故障定位到适当的粒度仍然是困难的。在本文中作者提出了 HALO,一种层次感知故障定位方法,用于从遥测数据中定位故障指示组合。我们的方法自动学习属性之间的层次关系,并利用层次结构进行精确有效的故障定位。我们在工业和合成数据集上对 HALO 进行了评估,结果证实 HALO 优于现有方 ...
KDD 2021丨RANSynCoder:异步多变量时间序列异常检测与定位模型
论文标题丨Practical Approach to Asynchronous Multivariate Time Series Anomaly Detection and Localization 论文来源丨KDD 2021 论文链接丨https://dl.acm.org/doi/10.1145/3447548.3467174 源码链接丨https://github.com/eBay/RANSynCoders TL;DR 基于 eBay SREs 观测到的异步时间序列场景,论文中提出一种生产环境可用的多变量时间序列异常检测和定位模型 RANSynCoders。主要想法是:首先利用 AutoEncoder 对原始异步时间序列提取特征,然后对序列特征进行傅里叶变换分析,学习到相位差来对齐异步时间序列获得同步的时间序列表示,最后选择同步时间序列的子集序列来训练 AutoEncoder 重构误差来推断和定位异常(majority vote)。实验部分不仅在公开数据集和 eBay 自家数据验证了 RANSynCoders 模型的有效性,还提出了一种更加真实的评价方法。 Algorithm/M ...
KDD 2021丨时间序列相关研究论文汇总
文章系列: ICDE 2021丨时间序列相关研究论文汇总 ICML 2021丨时间序列相关研究论文汇总 KDD 2021丨时间序列相关研究论文汇总 IJCAI 2021丨时间序列相关研究论文汇总 ACM SIGKDD(Conference on Knowledge Discovery and Data Mining, KDD)是全球最大规模的国际数据科学会议,将展示知识发现和数据挖掘方面的最新研究成果。SIG 是 ACM 中关于知识发现和数据挖掘的特别兴趣小组,KDD 知识发现和数据挖掘年度国际会议是数据挖掘、数据科学和分析领域的首屈一指的跨学科会议,被中国计算机协会 CCF 推荐为 A类会议。 KDD 2021 的论文接收结果:共有1541篇有效投稿,其中238篇论文被接收,接收率为15.44%。相比 KDD 2020 的接收率 16.9% (216/1279)有所下降。 本文主要整理下 KDD 2021 Research Track & Applied Data Science Track 中时间序列相关研究成果。 01 论文标题:MiniRocket: A Ve ...
MERCon 2021丨微服务系统中基于依赖图和图论概念的反模式识别方法
论文标题丨Using dependency graph and graph theory concepts to identify anti-patterns in a microservices system: A tool-based approach 论文来源丨MERCon 2021 论文链接丨https://www.researchgate.net/profile/Indika-Perera-3 源码链接丨未公布 TL;DR 为了识别微服务架构 (MSA) 设计中的反模式问题,论文中提出了一种新颖的自动化工具解决方案 Microservice Anti-Patterns Insights Generator (MAIG)。首先基于 MSA 中的链路追踪数据来生成依赖图,然后利用图论概念和算法来提取图上的指标进行分析。为了进一步验证该工具的可用性,开发人员使用该工具分析了一个开源系统。 反模式问题 采用数据驱动迁移反模式主要发生在当你从一个单体应用向微服务架构做迁移的时候。我们之所以称之为反模式主要原因是,刚开始我们觉得创建微服务是一个不错的主意,服务和相应的数据都独立成微服 ...
ICML 2019丨LDS:面向图神经网络的离散图结构学习
论文标题 | Learning Discrete Structures for Graph Neural Networks 论文来源 | ICML 2019 论文链接 | https://arxiv.org/abs/1903.11960 源码链接 | https://github.com/lucfra/LDS-GNN TL;DR 为了解决现实图数据中的噪声和图结构未知的情况,论文中提出联合学习图卷积网络的图结构和参数的方法 LDS,主要是通过学习图中边的离散概率分布来近似求解双层规划问题,这样可以在图中关系缺失或者图结构未知的情况下应用 GCNs。实验部分在验证了提出的 LDS 模型优于目前的 baselines。 Algorithm/Model LDS 模型的主要架构图如下所示: Experiments Thoughts