【2018/FSE】Identifying Impactful Service System Problems via Log Analysis
论文链接:https://blog.acolyer.org/2018/12/19/identifying-impactful-service-system-problems-via-log-analysis/ 源码链接:https://github.com/logpai/Log3C TL;DR 为解决人工分析定位异常困难的问题,文章中提出一种基于log sequence和KPIS聚类的方法来定位服务中出现的异常。在Microsoft服务系统收集的数据上验证比较有效。 Model/Algorithm 为了提出文中的方法框架Log3CLog3CLog3C,首先指出当前的方法存在以下三个问题: 服务器产生的logs数量级大,用传统聚类的方法难以高效的聚类。 单纯地聚类cluster不能说明是否反应一个问题。 logs样本不均衡。正常的数据样本比较多而异常样本比较少。 为了解决以上三个问题,文章中提出了一个新的聚类算法Log3C(Cascading Clustering and Correlation analysis)。 列出文章的contributions: We propose ...
VsCode 中 Python 开发高效插件配置
由于 VSCode 版本不断更新因此更新下插件; 更新:代码统计插件:VS Code Counter Settings Sync 直接通过账号同步 在github中新建个gists服务对象存储配置文件;GistID 12上传:shift+alt+u下载:shift+alt+d Material Theme 主题设置 Path Intellisense 路径自动补充 Remote-SSH 远程开发 vscode-icons 文件图标 修改terminal setting.json 中修改: 1"terminal.integrated.shell.windows": "D:\\DevTools\\Git\\bin\\bash.exe" vscode python 头文件 路径:File-Preferences-User Snippets-python 1234567891011121314151617181920212223{ // Place your snippets for python here. Each snipp ...
【2019/ICML】Position-aware Graph Neural Networks
论文:https://arxiv.org/pdf/1906.04817.pdf 源码:https://github.com/JiaxuanYou/P-GNN TL;DR 目前存在的 GNNs 系列模型都不能捕获给定节点相对于其它所有节点的位置特征,本文中提出一个可以捕获节点特征的图神经网络模型 P-GNN。P-GNN 首先采样 anchor nodes 集合,然后计算给定目标节点相对于 anchor nodes 集合的距离,再学习一个非线性的距离权重的聚合模式。因此 P-GNN 融合节点相对于其它节点的位置信息。论文实验部分在链路预测与社团检测任务中明显优于其它模型。 问题引入 目前的一系列 GNNs 模型不能捕获图中节点的位置信息。在不考虑节点属性特征的情况下,如果图中两个节点 v1,v2v_1, v_2v1,v2如果相邻节点结构相同,那么 GNN 模型将会将这两个节点嵌入到特征空间中的相同位置,即融合得到的特征相同,但实际上这两个节点应属于不同的类。如下图所示: 目前提出了两种方法来解决该问题: 以 one-hot 编码来扩充节点的属性; 增加 GNN 的深度; 但是 ...
【2019/CVPR】RegularFace:Deep Face Recognition via Exclusive Regularization
文章链接:http://openaccess.thecvf.com/content_CVPR_2019/html/Zhao_RegularFace_Deep_Face_Recognition_via_Exclusive_Regularization_CVPR_2019_paper.html 源码链接:http://kaizhao.net/regularface TL;DR 对于人脸识别,目前的工作大多数集中在如何通过修改loss functions来增强intra-class compactness,但是inter-class separability对划分样本空间的边界同样有作用。这篇文章中首先提出一种指标来度量特征空间内类中心的距离,然后再提出一种Regularization的方法来增大类间距离。 Dataset/Algorithm/Model 首先给出不同loss下的样本特征空间划分: 从上面的特征空间点中我是并不能看出来文中提出的RegularFace对ID可分有明显的效果。 可视化不同loss的效果之后,文中提出了一种度量类中心距离的方式,如下述公式: Sepi=max ...
WWW 2018 丨 Donut:基于 VAE 的季节性 KPIs 无监督异常检测模型
论文标题丨 Unsupervised Anomaly Detection via Variational Auto-Encoder for Seasonal KPIs in Web Applications 论文来源丨 WWW 2018 论文链接丨 https://arxiv.org/abs/1802.03903 源码链接丨 https://github.com/NetManAIOps/donut 论文翻译可以参考:https://smileyan.cn/#/ad/donut TL;DR 为了保证业务不受干扰,大型互联网公司需要密切监控其 Web 应用程序的各种 KPI(如页面访问量、在线用户数量、订单数量),以准确检测异常并及时触发故障排除/缓解。然而,对于具有各种模式和数据质量的季节性 KPI 的异常检测是一个巨大的挑战,特别是在没有标签的情况下。本文提出了一种基于 VAE 的无监督异常检测算法 Donut 。多亏了我们的一些关键技术,Donut 的表现大大超过了先进的监督集成方法和标准 VAE 方法,在一家全球顶级互联网公司所研究的 KPI 指标中,它的 best F-Sc ...
Linux 用户配置文件 profile、bashrc、bash_profile 的区别
Linux 系统中,三种配置文件 profile、bash_profile、bashrc,本文主要记录下不同配置文件的作用范围。 profile profile,路径:/etc/profile,用于设置系统级的环境变量和启动程序,在这个文件下配置会对 所有用户 生效。 当用户登录(login)时,文件会被执行,并从 /etc/profile.d 目录的配置文件中查找 shell 设置。 在 profile 中设置环境变量 一般不建议在 /etc/profile 文件中添加环境变量,因为在这个文件中添加的设置会对所有用户起作用。 当必须添加时,我们可以按以下方式添加: 如,添加一个 HOST 值为 xx.cn 的环境变量: 1export HOST=xx.cn 添加时,可以在行尾使用;号,也可以不使用。 一个变量名可以对应多个变量值,多个变量值需要使用:进行分隔。 添加环境变量后,需要重新登录才能生效,也可以使用 source 命令强制立即生效: 1source /etc/profile 查看是否生效可以使用 echo 命令: 12$ echo $HOSTxx.cn bashrc ba ...
PyFlann 最邻近点搜索
背景 https://github.com/mariusmuja/flann PyFlann 是 FLANN 的 python 接口,FLANN (Fast Library for Approximate Nearest Neighbors) 是快速解决最近点搜类问题的库。 这一类问题是一个在尺度空间中寻找最近点的优化问题。问题描述如下:在尺度空间 MMM 中给定一个点集 SSS 和一个目标点 q∈Mq \in Mq∈M,在 SSS 中找到距离 qqq 最近的点。很多情况下,MMM 为多维的欧几里得空间,距离由欧几里得距离或曼哈顿距离决定。最近点搜索问题的快速解决在很多领域都有着重要意义,如:图像识别及分类、机器学习、文档查重、统计学和大数据等。当维度较高时需要考虑效率问题。PyFlann库提供了linear, kdtree, kmeans, composite, autotuned几种算法来更好的解决问题。 用法 参考: 文档: http://www.cs.ubc.ca/research/flann/uploads/FLANN/flann_manual-1.8.4.pdf 博客 ...
【2019/CVPR】Linkage Based Face Clustering via Graph Convolution Network
文章链接:https://arxiv.org/pdf/1903.11306.pdf TL;DR 这篇文章介绍了如何利用GCN进行人脸图片聚类。将图片聚类问题变成了链路预测的问题。对于GCN,只是用来提取相邻或者3-hops图片的特征,并不是用来提取单张图片上人脸的特征。 Dataset/Algorithm/Model 文章的思路大概分为以下三步: 根据图片特征空间上的距离构建IPS(Instance Pivot Subgraph)子图。 利用GCN提取相邻节点(人脸图片)的特征,输出每个节点之间存在边的概率。 根据概率阈值为节点之间添加边。每个不连通的子图都是一个cluster。 图示过程大致如下: Experiment Detail 实验结果只是和传统的聚类算法或者CNN结果进行比较,结果略优于以前的方法。 Thoughts 关于构建IPS图,可选的参数太多。本文实验中作者是通过实验结果选定好的参数,但是对于不同的数据集,参数可能不同。 虽然这篇文章中GCN在人脸上的用法跟我想的不同,但是也提供了可以参照的构造IPS子图的方式。 至于创新点,感觉有 ...
复杂网络中的社团检测算法研究
本文参考论文Community detection in networks:A user guide,写下本人理解笔记。 复杂网络 复杂网络定义 在我们的现实生活中,许多复杂系统都可以建模成一种复杂网络进行分析,比如常见的电力网络、航空网络、交通网络、计算机网络以及社交网络等等。复杂网络不仅是一种数据的表现形式,它同样也是一种科学研究的手段。复杂网络方面的研究目前受到了广泛的关注和研究,尤其是随着各种在线社交平台的蓬勃发展,各领域对于在线社交网络的研究也越来越火。 下图是一个计算机网络图: 复杂网络的特性 钱学森对于复杂网络给出了一种严格的定义:具有自组织、自相似、吸引子、小世界、无标度中部分或全部性质的网络称之为复杂网络。言外之意,复杂网络就是指一种呈现高度复杂性的网络,其特点主要具体体现在如下几个方面: 小世界特性 小世界特性(Small world theory)又被称之为是六度空间理论或者是六度分割理论(Six degrees of separation)。小世界特性指出:社交网络中的任何一个成员和任何一个陌生人之间所间隔的人不会超过六个,如下图所示: 在考虑网络特征时 ...
【2013/ICDM】On Anomalous Hotspot Discovery in Graph Streams
文章链接:http://charuaggarwal.net/ICDM-hotspot.pdf TL;DR 文章中提出了一种在网络流图中检测出异常的hotspots的方法,设计了一个localized principal component analysisi(PCA) algorithm. 使用快速的增量特征向量更新算法来维持局部相关信息。 Algorithm/Model 利用G(t)=(N(t),A(t))G(t)=(N(t), A(t))G(t)=(N(t),A(t))表示一个时序网络,N(t)N(t)N(t) 和 A(t)A(t)A(t) 表示 ttt 时刻的nodesnodesnodes和edgesedgesedges,nijtn^t_{ij}nijt表示边(i,j)(i,j)(i,j)出现的次数,T(i,j,1)...(T,i,j,nijt)T(i,j,1)...(T,i,j,n^t_{ij})T(i,j,1)...(T,i,j,nijt)表示边(i,j)(i,j)(i,j)出现的时间戳。文章中处理的是无向图,但是在我们项目中估计要作为有向图处理。 首先定义ttt时刻 ...
Git丨命令汇总及其常见问题解决
更新其它常用命令; 文件删除 删除远程仓库但不删本地资源,先在 .gitignore 中添加需要忽略的文件: 123git rm -r --cached *** //-r 是递归删除文件夹git commit -m "delete files"git push 切换分支 查看分支: 12$ git branch -a #远程分支$ git branch # 查看本地分支 切换到远程分支: 12$ git checkout -b standard-base-4.x-dev origin/standard-base-4.x-dev$ git checkout . #本地所有修改的。没有的提交的,都返回到原来的状态 删除远程分支: 1$ git push origin --delete <BranchName> 撤销 Commit / reset 123456789# 回退到上一版本并不撤销add操作;$ git reset --soft HEAD^# --soft # 不删除工作空间改动代码,撤销commit,不撤销git add . # --har ...
DeepGCNs:采用 CNNs 的思路来训练更深 GCNs 模型
论文标题 | DeepGCNs: Can GCNs Go as Deep as CNNs? 论文来源 | ICCV 2019 论文链接 | https://arxiv.org/pdf/1904.03751.pdf 源码链接 | https://github.com/lightaime/deep_gcns_torch TL;DR 由于 deep GCN model 会产生 over-smoothing 的现象(也可以理解为梯度消失),所以目前基于 GCN 的模型都比较浅,大概 3-4 layers。如果 GCN 和 CNN 类似,那么增加 layers 的数量模型的效果应该会更好。基于这种假设和类推,这篇文章仿照 CNN 中的方法,提出了三种可以增加 GCN 深度的方法。在图像点云分割的实验中证明本文使用更深的 GCN 模型可以提升效果。 Algorithm/Model 对于 CNN 模型,如果需要增加网络的深度,目前有以下三种方法: residual connections. dense connections. dilated convolutions. 作者仿照 CNN 模型 ...
【2019/AAAI】Multi-Stage Self-Supervised Learning for Graph Convolutional Networks
文章链接:https://arxiv.org/abs/1902.11038 TL;DR 当GCN用在semi-supervised learning任务中时,由于训练labeled data数据量较少,因此很难达到比较好的结果。文章中对于数据量较少的情况下提出了一种新的训练算法Mult-Stage Self-Supervised Training Algorithm(M3S),其中主要是用Facebook提出的DeepCluster技术优化训练过程。 Dataset/Algorithm/Model 首先,给出文章中训练模型的pipeline: graph nodes经过GCN之后产生两个分支,第一个用于DeepCluster形成文中所谓的Self-Checking Mechanism,另一个找出t个置信度比较高的节点结合Self-Checking Mechanism重新训练模型。详细的算法流程如下图所示: 至于DeepCluster技术,是一种在特征空间中找到合适的聚类中心和类别的方法,优化函数如下: minC∈Rd×k1N∑n=1Nminyn∈{0,1}k∥F(xn)−C ...
推荐神器Tmux巨好看的配置文件
推荐一款好看的Tmux配置文件。 Tmux介绍 Tmux是一个优秀的终端复用软件,类似GNU Screen,但来自于OpenBSD,采用BSD授权。使用它最直观的好处就是,通过一个终端登录远程主机并运行tmux后,在其中可以开启多个控制台而无需再“浪费”多余的终端来连接这台远程主机。是BSD实现的Screen替代品,相对于Screen,它更加先进:支持屏幕切分,而且具备丰富的命令行参数,使其可以灵活、动态的进行各种布局和操作。 Tmux安装 ubuntu apt安装 sudo apt-get install tmux centos7 yum安装 yum install -y tmux macos homebrew安装 brew install tmux 配置文件 推荐一款配置文件:Oh-My-Tmux,适用于本地安装显示,远程主机安装时发现效果并没有那么完美! 项目地址:Github/gpakosz/.tmux 安装方法: 1234$ cd$ git clone https://github.com/gpakosz/.tmux.git$ ln -s -f .tmux/.tmu ...
【2019/CVPR】Learning Actor Relation Graphs for Group Activity Recognition
文章链接:https://arxiv.org/pdf/1904.10117.pdf TL;DR 文章中提出了一种基于GCN的多人场景动作识别的模型. 为了学习到actors之间的relation, 文中提出了Actor Relation Graph(ARG), 包含了actors之间的纹理和位置特征. 除此之外, 基于不同的metrics, 文章提出了不同的ARG, 值得借鉴. Dataset/Algorithm/Model 文章主要解决的问题如下图所示, 在一个多人的场景中识别或者推断出出每个人物的动作以及group activity. 文章中提出的模型pipeline如下图所示: 文章中主要的创新点在于如何构建Actor Relation Graph(ARG), 因此主要介绍一下构建ARG的过程. 首先根据采样的视频帧卷积之后得到bounding box和features, 那么scene中每个actor的特征为: A={(xia,xis)∣i=1,⋯ ,N}A=\left\{\left(\mathbf{x}_{i}^{a}, \mathbf{x}_{i}^{s}\righ ...