UMAP | ReConcept Lab

钩子问题：保留局部结构，同时适合实际数据

t-SNE 能做出有用的局部地图，但学习者仍需要理解邻居强度、吸引、排斥和解读边界。

统一流形近似与投影（Uniform Manifold Approximation and Projection，UMAP）从加权邻居图开始，再优化一个行为相似的低维图。

降维学习路径线性投影、保距离地图、监督判别和保邻嵌入分别解决不同痛点。

PCA

保留中心化数据变化最大的方向。

MDS

摆放点，让低维距离尽量模仿原始距离表。

Isomap

先用邻居图最短路估计流形距离，再做类似 MDS 的布局。

LDA

利用标签寻找投影方向，让类均值分开，同时让类内保持紧。

QDA

让每个类别保留自己的协方差，形成二次边界，而不是一个共享投影。

SNE

匹配高维与低维中的邻居概率。

t-SNE

用低维重尾相似度修补 SNE 的拥挤问题。

UMAP

构造模糊邻居图，再优化具有相似成员强度的低维图。

第一个朴素想法：只保留硬性的最近邻边

是或否的邻居图会丢掉有用的不确定性。有些邻居非常可信；有些只是勉强落在局部半径内。

核心发明：匹配模糊图

UMAP 构造一个模糊邻居图（fuzzy neighbor graph）：每条局部边都有成员强度。布局时，强邻居对被拉近，被采样的非邻居对被推远。

第一版可以记成：

\text{low-dimensional graph} \approx \text{high-dimensional fuzzy neighbor graph}

追踪实验室

UMAP构造模糊邻居图，再优化具有相似成员强度的低维图。

步骤 1/2: 构造模糊邻居图

UMAP 记录局部邻居强度，而不只是有边或无边。

工作公式weighted k-neighbor graph

边权编码局部可信度

实现草图

find approximate nearest neighbors;
convert local distances into weighted edges;
initialize low-dimensional points;
optimize attraction for edges and repulsion for sampled non-edges;

解读警告

UMAP 坐标轴通常没有直接特征含义。局部邻域比全局面积、方向或空白空间更可信。n_neighbors 和 min_dist 等参数会改变地图强调的内容。

常见混淆

UMAP 不是“总是更好的 t-SNE”；它做的是不同建模选择。
强烈的视觉小岛需要领域检查或指标支持，才能变成结论。
模糊图保存局部成员程度，不只是二元边。

练习

UMAP 为什么保留加权邻居强度？
布局中的吸引和排斥分别做什么？
UMAP 图中哪些部分容易被过度解读？

图谱连接 : UMAP