图谱连接

草稿

Dunn 指数

用最弱簇间间隔除以最大簇内直径来评价聚类。

concept intermediate machine-learningmetricsclustering

问题入口:最弱间隔可能决定整体判断

平均值可能隐藏一个聚类最脆弱的位置。

Dunn 指数问一个极值问题:“最近的簇间间隔,相对于最宽的簇,有多大?”

最弱间隔对最宽簇Dunn 使用极值:最近跨簇样本对距离除以最大簇直径。
p1p2p3p4p5p6p7p8p9
最近跨簇样本对p2 - p6
最小间隔4.418
最大簇直径0.825

C

Dunn5.358

越高越好

第一个朴素想法:平均所有距离

距离平均值可能看起来不错,即使某个桥接点几乎碰到了另一个簇。

在一些应用里,这个最弱间隔正是你关心的部分。

核心发明:最小分离度除以最大直径

本页使用一种常见 Dunn 变体:

  • 簇间分离度是两个不同簇中任意点对的最小距离。
  • 簇内直径是同一簇中任意两点的最大距离。

形式化版本

Dunn=minijδ(Ci,Cj)maxlΔ(Cl)Dunn=\frac{\min_{i\ne j}\delta(C_i, C_j)}{\max_l \Delta(C_l)}

这里,delta 是最近跨簇样本对距离,Delta 是最大同簇样本对距离。

Dunn 越高越好。当最大簇内直径为零时,本实现返回不可用。

交互实验台

内部聚类指标预设实验台

说明: 三个紧凑组彼此较远,因此簇内紧密和簇间分离是一致的。

轮廓系数0.889

越高越好

Calinski-Harabasz251.312

越高越好

Davies-Bouldin0.126

越低越好

Dunn5.358

越高越好

B_k86.004
W_k1.027
最小间隔4.418
最大直径0.825

静态无 JS 备选:

固定样本的 Dunn 极值
最近跨簇样本对p2 - p6
最小间隔4.418
最宽簇C
最大直径0.825
Dunn5.358

实现草图

function dunn(minGap: number, maxDiameter: number) {
  return maxDiameter === 0 ? null : minGap / maxDiameter;
}

复杂度

这个变体需要成对距离,因此直接实现是 O(n^2)

常见误区

  • Dunn 是越高越好。
  • Dunn 使用极值,因此对离群点敏感。
  • 不同资料可能使用不同的簇间距离变体;本页使用最近跨簇样本对距离。
内部指标对比Silhouette、CH 和 Dunn 越高越好;DB 越低越好。
紧凑岛屿

Silhouette: 0.889

CH: 251.312

DB: 0.126

Dunn: 5.358

拉长的簇

Silhouette: 0.551

CH: 17.953

DB: 0.474

Dunn: 0.903

桥接点

Silhouette: 0.62

CH: 28.707

DB: 0.446

Dunn: 0.327

错误切分

Silhouette: -0.314

CH: 0.035

DB: 13.062

Dunn: 0.08

练习

  1. 公式中的分子是什么量?
  2. 为什么桥接点会让 Dunn 很快变小?
  3. 哪种离群点会让分母过大?

图谱连接 : Dunn 指数