图谱连接

草稿

UMAP

构造模糊邻居图,并优化一个具有相似局部成员强度的低维图。

algorithm intermediate machine-learningdimensionality-reductionvisualization

钩子问题:保留局部结构,同时适合实际数据

t-SNE 能做出有用的局部地图,但学习者仍需要理解邻居强度、吸引、排斥和解读边界。

统一流形近似与投影(Uniform Manifold Approximation and Projection,UMAP)从加权邻居图开始,再优化一个行为相似的低维图。

降维学习路径线性投影、保距离地图、监督判别和保邻嵌入分别解决不同痛点。
PCA

保留中心化数据变化最大的方向。

MDS

摆放点,让低维距离尽量模仿原始距离表。

Isomap

先用邻居图最短路估计流形距离,再做类似 MDS 的布局。

LDA

利用标签寻找投影方向,让类均值分开,同时让类内保持紧。

QDA

让每个类别保留自己的协方差,形成二次边界,而不是一个共享投影。

SNE

匹配高维与低维中的邻居概率。

t-SNE

用低维重尾相似度修补 SNE 的拥挤问题。

UMAP

构造模糊邻居图,再优化具有相似成员强度的低维图。

第一个朴素想法:只保留硬性的最近邻边

是或否的邻居图会丢掉有用的不确定性。有些邻居非常可信;有些只是勉强落在局部半径内。

核心发明:匹配模糊图

UMAP 构造一个模糊邻居图(fuzzy neighbor graph):每条局部边都有成员强度。布局时,强邻居对被拉近,被采样的非邻居对被推远。

第一版可以记成:

low-dimensional graphhigh-dimensional fuzzy neighbor graph\text{low-dimensional graph} \approx \text{high-dimensional fuzzy neighbor graph}

追踪实验室

UMAP构造模糊邻居图,再优化具有相似成员强度的低维图。
步骤 1/2: 构造模糊邻居图

UMAP 记录局部邻居强度,而不只是有边或无边。

工作公式weighted k-neighbor graph

边权编码局部可信度

实现草图

find approximate nearest neighbors;
convert local distances into weighted edges;
initialize low-dimensional points;
optimize attraction for edges and repulsion for sampled non-edges;

解读警告

UMAP 坐标轴通常没有直接特征含义。局部邻域比全局面积、方向或空白空间更可信。n_neighborsmin_dist 等参数会改变地图强调的内容。

常见混淆

  • UMAP 不是“总是更好的 t-SNE”;它做的是不同建模选择。
  • 强烈的视觉小岛需要领域检查或指标支持,才能变成结论。
  • 模糊图保存局部成员程度,不只是二元边。

练习

  1. UMAP 为什么保留加权邻居强度?
  2. 布局中的吸引和排斥分别做什么?
  3. UMAP 图中哪些部分容易被过度解读?

图谱连接 : UMAP