图谱连接

草稿

t-SNE

用低维重尾相似度修补 SNE 的拥挤地图,让非邻居更容易分开。

algorithm intermediate machine-learningdimensionality-reductionvisualization

钩子问题:太多邻居挤在中心

SNE 试图保留局部概率,但二维空间没有足够面积,让所有中等距离点都保持中等距离。点可能会挤到中间。

t-SNE 保留邻居概率思想,并改变低维相似度,让非邻居能够移动得更远。

邻域变成概率SNE 家族方法最关心哪些点是局部邻居。
A1 -> A20.70

低维邻居相似度

A1 -> A30.49

低维邻居相似度

A1 -> B10.08

低维邻居相似度

第一个朴素想法:两个空间都用同样的高斯形状

高斯尾部很快变得极小。在低维地图中,这会让许多中等距离关系难以同时表示,最终造成拥挤。

核心发明:低维使用重尾相似度

t-SNE 在地图中使用 Student-t 风格的相似度:

qij(1+yiyj2)1q_{ij} \propto (1+\lVert y_i-y_j\rVert^2)^{-1}

较重的尾部让低维远点仍有足够概率质量,使优化器能把非邻居推开。

追踪实验室

t-SNE用低维重尾相似度修补 SNE 的拥挤问题。
步骤 1/2: 看到拥挤问题

高维中许多中等距离邻居无法都以中等距离塞进二维。

工作公式too many neighbors, too little area

点容易挤在中心

实现草图

compute symmetric high-dimensional neighbor probabilities;
initialize a two-dimensional map;
compute Student-t low-dimensional similarities;
optimize KL divergence with attraction and repulsion;

解读警告

t-SNE 很适合局部探索,但不是聚类验证指标。簇面积、间隔大小和坐标轴方向都会随着 perplexity、初始化、学习率和随机种子改变。

常见混淆

  • 近邻关系比远距离更可靠。
  • 更大的视觉间隔不一定表示更大的原始距离。
  • 重复运行可能产生不同图形。
降维学习路径线性投影、保距离地图、监督判别和保邻嵌入分别解决不同痛点。
PCA

保留中心化数据变化最大的方向。

MDS

摆放点,让低维距离尽量模仿原始距离表。

Isomap

先用邻居图最短路估计流形距离,再做类似 MDS 的布局。

LDA

利用标签寻找投影方向,让类均值分开,同时让类内保持紧。

QDA

让每个类别保留自己的协方差,形成二次边界,而不是一个共享投影。

SNE

匹配高维与低维中的邻居概率。

t-SNE

用低维重尾相似度修补 SNE 的拥挤问题。

UMAP

构造模糊邻居图,再优化具有相似成员强度的低维图。

练习

  1. Student-t 重尾修补了什么问题?
  2. 为什么 t-SNE 图不能自动证明簇存在?
  3. 从 t-SNE 中最安全能读出的视觉关系是什么?

图谱连接 : t-SNE