图谱连接

草稿

二次判别分析

让每个类别保留自己的协方差形状,从而产生弯曲的监督式决策边界。

algorithm intermediate machine-learningdimensionality-reductionclassification

钩子问题:一个共享类别形状太僵硬

LDA 假设所有类别共享一个协方差形状。这个简化很有用,但当一个类别被拉长、另一个类别近似圆形,并且边界需要弯曲时,它就会失败。

二次判别分析(Quadratic Discriminant Analysis,QDA)修补的是这个共享形状假设。

标签改变问题LDA 寻找分离投影;QDA 保留不同类别形状并得到弯曲边界。
A1A2A3B1B2B3
LDA一个投影

共享协方差假设

QDA弯曲边界

每个类别独立协方差

重要边界:QDA 不是标准投影方法

QDA 主要是监督式分类器。它出现在这个降维集群里,是因为它自然接在 LDA 后面作对比:不是一个线性判别几何,而是每个类别一个协方差矩阵,从而得到二次决策边界。

核心发明:每个类别独立协方差

对每个类别 c,QDA 估计自己的均值和协方差。类别得分形如:

logp(xc)+logp(c)\log p(x\mid c)+\log p(c)

似然项使用类别专属协方差矩阵 Sigma_c。当这些协方差矩阵不同时,等分曲线就是二次曲线。

追踪实验室

QDA让每个类别保留自己的协方差,形成二次边界,而不是一个共享投影。
步骤 1/2: 一个共享协方差太僵硬时

QDA 为每个类别保留独立协方差形状,而不是强迫共用一个椭圆。

工作公式Sigma_c for each class c

类别形状可以不同

实现草图

for each class:
  estimate mean_c and covariance_c;
for a new point:
  score each class with its Gaussian log likelihood plus log prior;
  choose the largest score;

正确性直觉和代价

QDA 比 LDA 更灵活,因为每个类别可以有自己的椭圆形状。这种灵活性需要更多参数,所以当特征很多时,它需要更多数据和更谨慎的正则化。

常见混淆

  • QDA 不像 PCA 或 t-SNE 那样产生一个低维嵌入。
  • QDA 是监督式方法;它需要标签。
  • 当每个类别样本太少时,弯曲边界更容易过拟合。
降维学习路径线性投影、保距离地图、监督判别和保邻嵌入分别解决不同痛点。
PCA

保留中心化数据变化最大的方向。

MDS

摆放点,让低维距离尽量模仿原始距离表。

Isomap

先用邻居图最短路估计流形距离,再做类似 MDS 的布局。

LDA

利用标签寻找投影方向,让类均值分开,同时让类内保持紧。

QDA

让每个类别保留自己的协方差,形成二次边界,而不是一个共享投影。

SNE

匹配高维与低维中的邻居概率。

t-SNE

用低维重尾相似度修补 SNE 的拥挤问题。

UMAP

构造模糊邻居图,再优化具有相似成员强度的低维图。

练习

  1. QDA 放松了 LDA 的哪个假设?
  2. 为什么 QDA 比 LDA 更容易过拟合?
  3. 为什么不应把 QDA 描述成通用可视化算法?

图谱连接 : 二次判别分析