二次判别分析 | ReConcept Lab

钩子问题：一个共享类别形状太僵硬

LDA 假设所有类别共享一个协方差形状。这个简化很有用，但当一个类别被拉长、另一个类别近似圆形，并且边界需要弯曲时，它就会失败。

二次判别分析（Quadratic Discriminant Analysis，QDA）修补的是这个共享形状假设。

标签改变问题LDA 寻找分离投影；QDA 保留不同类别形状并得到弯曲边界。

LDA一个投影

共享协方差假设

QDA弯曲边界

每个类别独立协方差

重要边界：QDA 不是标准投影方法

QDA 主要是监督式分类器。它出现在这个降维集群里，是因为它自然接在 LDA 后面作对比：不是一个线性判别几何，而是每个类别一个协方差矩阵，从而得到二次决策边界。

核心发明：每个类别独立协方差

对每个类别 c，QDA 估计自己的均值和协方差。类别得分形如：

\log p(x\mid c)+\log p(c)

似然项使用类别专属协方差矩阵 Sigma_c。当这些协方差矩阵不同时，等分曲线就是二次曲线。

追踪实验室

QDA让每个类别保留自己的协方差，形成二次边界，而不是一个共享投影。

步骤 1/2: 一个共享协方差太僵硬时

QDA 为每个类别保留独立协方差形状，而不是强迫共用一个椭圆。

工作公式Sigma_c for each class c

类别形状可以不同

实现草图

for each class:
  estimate mean_c and covariance_c;
for a new point:
  score each class with its Gaussian log likelihood plus log prior;
  choose the largest score;

正确性直觉和代价

QDA 比 LDA 更灵活，因为每个类别可以有自己的椭圆形状。这种灵活性需要更多参数，所以当特征很多时，它需要更多数据和更谨慎的正则化。

常见混淆

QDA 不像 PCA 或 t-SNE 那样产生一个低维嵌入。
QDA 是监督式方法；它需要标签。
当每个类别样本太少时，弯曲边界更容易过拟合。

降维学习路径线性投影、保距离地图、监督判别和保邻嵌入分别解决不同痛点。

PCA

保留中心化数据变化最大的方向。

MDS

摆放点，让低维距离尽量模仿原始距离表。

Isomap

先用邻居图最短路估计流形距离，再做类似 MDS 的布局。

LDA

利用标签寻找投影方向，让类均值分开，同时让类内保持紧。

QDA

让每个类别保留自己的协方差，形成二次边界，而不是一个共享投影。

SNE

匹配高维与低维中的邻居概率。

t-SNE

用低维重尾相似度修补 SNE 的拥挤问题。

UMAP

构造模糊邻居图，再优化具有相似成员强度的低维图。

练习

QDA 放松了 LDA 的哪个假设？
为什么 QDA 比 LDA 更容易过拟合？
为什么不应把 QDA 描述成通用可视化算法？

图谱连接 : 二次判别分析