草稿
线性判别分析
利用标签寻找投影方向,让类别均值分开,同时让每个类别内部保持紧凑。
algorithm intermediate machine-learningdimensionality-reductionclassification
钩子问题:最大方差不一定带来最好分离
PCA 忽略标签。如果最大扩散方向发生在两个类别内部,PCA 可能保留一个看起来很活跃、但无法区分类别的方向。
线性判别分析(Linear Discriminant Analysis,LDA)改变问题:使用已知标签来寻找能分开类别的投影。
共享协方差假设
每个类别独立协方差
第一个朴素想法:分类前先做 PCA
PCA 可以帮助压缩,但它可能丢掉一个低方差、却能完美区分类别的方向。监督式投影必须知道类别是什么。
核心发明:类间散度对类内散度
对投影方向 w,LDA 希望类均值彼此远离,同时同一类内部的点保持接近。
这里 S_B 表示类间散度,S_W 表示类内散度。
追踪实验室
LDA 是监督式方法:它寻找让已知类别更容易分开的方向。
类别是输入的一部分
实现草图
compute class means and the global mean;
build between-class scatter S_B;
build within-class scatter S_W;
solve for directions that maximize the scatter ratio;
正确性直觉和限制
当类别大致呈高斯形状,并且协方差相近时,LDA 很有用。它最多能降到 类别数 - 1 个判别维度,因为独立的类别均值分离方向只有这么多。
常见混淆
- 这里的 LDA 是 Linear Discriminant Analysis,不是 Latent Dirichlet Allocation。
- LDA 是监督式方法;标签是输入的一部分。
- LDA 是线性的。弯曲类别边界会引出 QDA。
保留中心化数据变化最大的方向。
摆放点,让低维距离尽量模仿原始距离表。
先用邻居图最短路估计流形距离,再做类似 MDS 的布局。
利用标签寻找投影方向,让类均值分开,同时让类内保持紧。
让每个类别保留自己的协方差,形成二次边界,而不是一个共享投影。
匹配高维与低维中的邻居概率。
用低维重尾相似度修补 SNE 的拥挤问题。
构造模糊邻居图,再优化具有相似成员强度的低维图。
练习
- 为什么 PCA 可能为分类保留错误方向?
- 分母
w^T S_W w惩罚什么? - 为什么两个类别最多只能产生一个 LDA 方向?
图谱连接 : 线性判别分析