随机邻居嵌入 | ReConcept Lab

钩子问题：全局距离要求太高

在高维中，想把每个距离都准确保留到二维地图里，往往不现实。为了探索数据，一个更有用的承诺是局部的：让每个点可能的邻居仍然靠近。

随机邻居嵌入（Stochastic Neighbor Embedding，SNE）把邻域变成概率，并尝试匹配这些概率。

邻域变成概率SNE 家族方法最关心哪些点是局部邻居。

A1 -> A20.70

低维邻居相似度

A1 -> A30.49

低维邻居相似度

A1 -> B10.08

低维邻居相似度

第一个朴素想法：保留精确距离

保距离地图会同时对抗许多约束。如果学习者主要想看局部群组，精确全局距离可能不是正确目标。

核心发明：匹配邻居概率

对点 i，SNE 定义点 j 被选为它邻居的概率：

p_{j|i} \propto \exp\left(-\frac{\lVert x_i-x_j\rVert^2}{2\sigma_i^2}\right)

然后它搜索低维点，使低维概率接近高维概率，并最小化二者之间的 KL 散度。

追踪实验室

SNE匹配高维与低维中的邻居概率。

步骤 1/2: 把距离变成邻居概率

SNE 询问高维中哪些点会把彼此当作邻居。

工作公式p_j|i proportional to exp(-d^2)

近邻对概率更高

实现草图

convert high-dimensional distances into neighbor probabilities;
initialize low-dimensional coordinates;
compute low-dimensional neighbor probabilities;
move points to reduce KL divergence;

常见混淆

SNE 更擅长保留局部邻域，而不是全局比例。
图中的坐标轴没有原始特征含义。
二维拥挤问题会引出 t-SNE 的重尾修补。

降维学习路径线性投影、保距离地图、监督判别和保邻嵌入分别解决不同痛点。

PCA

保留中心化数据变化最大的方向。

MDS

摆放点，让低维距离尽量模仿原始距离表。

Isomap

先用邻居图最短路估计流形距离，再做类似 MDS 的布局。

LDA

利用标签寻找投影方向，让类均值分开，同时让类内保持紧。

QDA

让每个类别保留自己的协方差，形成二次边界，而不是一个共享投影。

SNE

匹配高维与低维中的邻居概率。

t-SNE

用低维重尾相似度修补 SNE 的拥挤问题。

UMAP

构造模糊邻居图，再优化具有相似成员强度的低维图。

练习

SNE 为什么使用概率，而不是直接使用原始距离？
较高的 p_{j|i} 表示什么？
t-SNE 修补了什么失败？

图谱连接 : 随机邻居嵌入