论文标题 | Efficient Parameter-free Clustering Using First Neighbor Relations
论文来源 | CVPR 2019
论文链接 | Efficient Parameter-free Clustering Using First Neighbor Relations
源码链接 | https://github.com/ssarfraz/FINCH-Clustering

TL;DR

本文中提出一种无超参、无需指定距离阈值或聚类数量的无监督聚类方法。整体思想感觉和层次聚类相差不大但使用了最近邻的样本点聚类。

Algorithm/Model

文中使用邻居矩阵来表示样本间的邻接关系,其定义如下:

A(i,j)={1, if j=ki1 or kj1=i or ki1=kj10, otherwise A(i, j)=\left\{\begin{array}{lr}{1,} & {\text { if } j=k_{i}^{1} \text { or } k_{j}^{1}=i \text { or } k_{i}^{1}=k_{j}^{1}} \\ {0,} & {\text { otherwise }}\end{array}\right.

其中ki1k_i^1 代表第ii 个点的最近邻点。A(i,j)A(i,j) 是数据的邻接矩阵。

以太阳系中行星属性聚类为例,如下图所示:

聚类示例

算法流程如下所示:

算法流程

根据确定数量的聚类算法如下所示:

确定聚类数量

Experiment Detail

实验数据集如下表所示:
数据集

实验对比结果如下所示:
实验效果

Thoughts

  1. FINCH方法不能发现单个样本点的簇
  2. FINCH如何确定最优的聚类簇数量?

联系作者