线性判别分析 | ReConcept Lab

钩子问题：最大方差不一定带来最好分离

PCA 忽略标签。如果最大扩散方向发生在两个类别内部，PCA 可能保留一个看起来很活跃、但无法区分类别的方向。

线性判别分析（Linear Discriminant Analysis，LDA）改变问题：使用已知标签来寻找能分开类别的投影。

标签改变问题LDA 寻找分离投影；QDA 保留不同类别形状并得到弯曲边界。

LDA一个投影

共享协方差假设

QDA弯曲边界

每个类别独立协方差

第一个朴素想法：分类前先做 PCA

PCA 可以帮助压缩，但它可能丢掉一个低方差、却能完美区分类别的方向。监督式投影必须知道类别是什么。

核心发明：类间散度对类内散度

对投影方向 w，LDA 希望类均值彼此远离，同时同一类内部的点保持接近。

\max_w \frac{w^T S_B w}{w^T S_W w}

这里 S_B 表示类间散度，S_W 表示类内散度。

追踪实验室

LDA利用标签寻找投影方向，让类均值分开，同时让类内保持紧。

步骤 1/2: 有意使用标签

LDA 是监督式方法：它寻找让已知类别更容易分开的方向。

工作公式class labels y_i

类别是输入的一部分

实现草图

compute class means and the global mean;
build between-class scatter S_B;
build within-class scatter S_W;
solve for directions that maximize the scatter ratio;

正确性直觉和限制

当类别大致呈高斯形状，并且协方差相近时，LDA 很有用。它最多能降到 类别数 - 1 个判别维度，因为独立的类别均值分离方向只有这么多。

常见混淆

这里的 LDA 是 Linear Discriminant Analysis，不是 Latent Dirichlet Allocation。
LDA 是监督式方法；标签是输入的一部分。
LDA 是线性的。弯曲类别边界会引出 QDA。

降维学习路径线性投影、保距离地图、监督判别和保邻嵌入分别解决不同痛点。

PCA

保留中心化数据变化最大的方向。

MDS

摆放点，让低维距离尽量模仿原始距离表。

Isomap

先用邻居图最短路估计流形距离，再做类似 MDS 的布局。

LDA

利用标签寻找投影方向，让类均值分开，同时让类内保持紧。

QDA

让每个类别保留自己的协方差，形成二次边界，而不是一个共享投影。

SNE

匹配高维与低维中的邻居概率。

t-SNE

用低维重尾相似度修补 SNE 的拥挤问题。

UMAP

构造模糊邻居图，再优化具有相似成员强度的低维图。

练习

为什么 PCA 可能为分类保留错误方向？
分母 w^T S_W w 惩罚什么？
为什么两个类别最多只能产生一个 LDA 方向？

图谱连接 : 线性判别分析