t-SNE | ReConcept Lab

钩子问题：太多邻居挤在中心

SNE 试图保留局部概率，但二维空间没有足够面积，让所有中等距离点都保持中等距离。点可能会挤到中间。

t-SNE 保留邻居概率思想，并改变低维相似度，让非邻居能够移动得更远。

邻域变成概率SNE 家族方法最关心哪些点是局部邻居。

A1 -> A20.70

低维邻居相似度

A1 -> A30.49

低维邻居相似度

A1 -> B10.08

低维邻居相似度

第一个朴素想法：两个空间都用同样的高斯形状

高斯尾部很快变得极小。在低维地图中，这会让许多中等距离关系难以同时表示，最终造成拥挤。

核心发明：低维使用重尾相似度

t-SNE 在地图中使用 Student-t 风格的相似度：

q_{ij} \propto (1+\lVert y_i-y_j\rVert^2)^{-1}

较重的尾部让低维远点仍有足够概率质量，使优化器能把非邻居推开。

追踪实验室

t-SNE用低维重尾相似度修补 SNE 的拥挤问题。

步骤 1/2: 看到拥挤问题

高维中许多中等距离邻居无法都以中等距离塞进二维。

工作公式too many neighbors, too little area

点容易挤在中心

实现草图

compute symmetric high-dimensional neighbor probabilities;
initialize a two-dimensional map;
compute Student-t low-dimensional similarities;
optimize KL divergence with attraction and repulsion;

解读警告

t-SNE 很适合局部探索，但不是聚类验证指标。簇面积、间隔大小和坐标轴方向都会随着 perplexity、初始化、学习率和随机种子改变。

常见混淆

近邻关系比远距离更可靠。
更大的视觉间隔不一定表示更大的原始距离。
重复运行可能产生不同图形。

降维学习路径线性投影、保距离地图、监督判别和保邻嵌入分别解决不同痛点。

PCA

保留中心化数据变化最大的方向。

MDS

摆放点，让低维距离尽量模仿原始距离表。

Isomap

先用邻居图最短路估计流形距离，再做类似 MDS 的布局。

LDA

利用标签寻找投影方向，让类均值分开，同时让类内保持紧。

QDA

让每个类别保留自己的协方差，形成二次边界，而不是一个共享投影。

SNE

匹配高维与低维中的邻居概率。

t-SNE

用低维重尾相似度修补 SNE 的拥挤问题。

UMAP

构造模糊邻居图，再优化具有相似成员强度的低维图。

练习

Student-t 重尾修补了什么问题？
为什么 t-SNE 图不能自动证明簇存在？
从 t-SNE 中最安全能读出的视觉关系是什么？

图谱连接 : t-SNE