图谱连接

草稿

线性判别分析

利用标签寻找投影方向,让类别均值分开,同时让每个类别内部保持紧凑。

algorithm intermediate machine-learningdimensionality-reductionclassification

钩子问题:最大方差不一定带来最好分离

PCA 忽略标签。如果最大扩散方向发生在两个类别内部,PCA 可能保留一个看起来很活跃、但无法区分类别的方向。

线性判别分析(Linear Discriminant Analysis,LDA)改变问题:使用已知标签来寻找能分开类别的投影。

标签改变问题LDA 寻找分离投影;QDA 保留不同类别形状并得到弯曲边界。
A1A2A3B1B2B3
LDA一个投影

共享协方差假设

QDA弯曲边界

每个类别独立协方差

第一个朴素想法:分类前先做 PCA

PCA 可以帮助压缩,但它可能丢掉一个低方差、却能完美区分类别的方向。监督式投影必须知道类别是什么。

核心发明:类间散度对类内散度

对投影方向 w,LDA 希望类均值彼此远离,同时同一类内部的点保持接近。

maxwwTSBwwTSWw\max_w \frac{w^T S_B w}{w^T S_W w}

这里 S_B 表示类间散度,S_W 表示类内散度。

追踪实验室

LDA利用标签寻找投影方向,让类均值分开,同时让类内保持紧。
步骤 1/2: 有意使用标签

LDA 是监督式方法:它寻找让已知类别更容易分开的方向。

工作公式class labels y_i

类别是输入的一部分

实现草图

compute class means and the global mean;
build between-class scatter S_B;
build within-class scatter S_W;
solve for directions that maximize the scatter ratio;

正确性直觉和限制

当类别大致呈高斯形状,并且协方差相近时,LDA 很有用。它最多能降到 类别数 - 1 个判别维度,因为独立的类别均值分离方向只有这么多。

常见混淆

  • 这里的 LDA 是 Linear Discriminant Analysis,不是 Latent Dirichlet Allocation。
  • LDA 是监督式方法;标签是输入的一部分。
  • LDA 是线性的。弯曲类别边界会引出 QDA。
降维学习路径线性投影、保距离地图、监督判别和保邻嵌入分别解决不同痛点。
PCA

保留中心化数据变化最大的方向。

MDS

摆放点,让低维距离尽量模仿原始距离表。

Isomap

先用邻居图最短路估计流形距离,再做类似 MDS 的布局。

LDA

利用标签寻找投影方向,让类均值分开,同时让类内保持紧。

QDA

让每个类别保留自己的协方差,形成二次边界,而不是一个共享投影。

SNE

匹配高维与低维中的邻居概率。

t-SNE

用低维重尾相似度修补 SNE 的拥挤问题。

UMAP

构造模糊邻居图,再优化具有相似成员强度的低维图。

练习

  1. 为什么 PCA 可能为分类保留错误方向?
  2. 分母 w^T S_W w 惩罚什么?
  3. 为什么两个类别最多只能产生一个 LDA 方向?

图谱连接 : 线性判别分析