草稿
Dunn 指数
用最弱簇间间隔除以最大簇内直径来评价聚类。
concept intermediate machine-learningmetricsclustering
问题入口:最弱间隔可能决定整体判断
平均值可能隐藏一个聚类最脆弱的位置。
Dunn 指数问一个极值问题:“最近的簇间间隔,相对于最宽的簇,有多大?”
C
越高越好
第一个朴素想法:平均所有距离
距离平均值可能看起来不错,即使某个桥接点几乎碰到了另一个簇。
在一些应用里,这个最弱间隔正是你关心的部分。
核心发明:最小分离度除以最大直径
本页使用一种常见 Dunn 变体:
- 簇间分离度是两个不同簇中任意点对的最小距离。
- 簇内直径是同一簇中任意两点的最大距离。
形式化版本
这里,delta 是最近跨簇样本对距离,Delta 是最大同簇样本对距离。
Dunn 越高越好。当最大簇内直径为零时,本实现返回不可用。
交互实验台
内部聚类指标预设实验台
说明: 三个紧凑组彼此较远,因此簇内紧密和簇间分离是一致的。
越高越好
越高越好
越低越好
越高越好
静态无 JS 备选:
| 最近跨簇样本对 | p2 - p6 |
|---|---|
| 最小间隔 | 4.418 |
| 最宽簇 | C |
| 最大直径 | 0.825 |
| Dunn | 5.358 |
实现草图
function dunn(minGap: number, maxDiameter: number) {
return maxDiameter === 0 ? null : minGap / maxDiameter;
}
复杂度
这个变体需要成对距离,因此直接实现是 O(n^2)。
常见误区
- Dunn 是越高越好。
- Dunn 使用极值,因此对离群点敏感。
- 不同资料可能使用不同的簇间距离变体;本页使用最近跨簇样本对距离。
Silhouette: 0.889
CH: 251.312
DB: 0.126
Dunn: 5.358
Silhouette: 0.551
CH: 17.953
DB: 0.474
Dunn: 0.903
Silhouette: 0.62
CH: 28.707
DB: 0.446
Dunn: 0.327
Silhouette: -0.314
CH: 0.035
DB: 13.062
Dunn: 0.08
练习
- 公式中的分子是什么量?
- 为什么桥接点会让 Dunn 很快变小?
- 哪种离群点会让分母过大?
图谱连接 : Dunn 指数