在本文中 ,作者将线性判别分析 (LDA) 与主成分分析 (PCA) 联系起来。以我有限的知识,我无法理解 LDA 与 PCA 的相似之处。
我一直认为LDA是一种分类算法,类似于逻辑回归。在理解 LDA 与 PCA 的相似之处时,我将不胜感激,即它是一种降维技术。
在本文中 ,作者将线性判别分析 (LDA) 与主成分分析 (PCA) 联系起来。以我有限的知识,我无法理解 LDA 与 PCA 的相似之处。
我一直认为LDA是一种分类算法,类似于逻辑回归。在理解 LDA 与 PCA 的相似之处时,我将不胜感激,即它是一种降维技术。
正如我在对您的问题的评论中指出的那样,判别分析是一个具有两个不同阶段的复合过程 - 降维(监督)和分类阶段。在降维时,我们提取了替换原始解释变量的判别函数。然后我们使用这些函数将观察结果分类(通常通过贝叶斯方法)到类中。
有些人往往无法认识到 LDA 的这种明确的两阶段性质,因为他们只熟悉具有 2 个类别的 LDA(称为Fisher判别分析)。在这样的分析中,只有一个判别函数,分类很简单,所以一切都可以在教科书中一次“通过”解释,而无需引入空间缩减和贝叶斯分类的概念。
LDA与MANOVA密切相关。后者是(多元)线性模型的“表面和广泛”方面,而它的“深度和重点”图片是典型相关分析(CCA)。问题是两个多变量变量集之间的相关性不是一维的,并且可以通过几对称为规范变量的“潜在”变量来解释。
作为降维,LDA理论上是具有两组变量的 CCA,一组是相关的“解释”区间变量,另一组是虚拟(或其他对比编码)变量表示组,观察的类别。
在 CCA 中,我们认为两个相关变量集 X 和 Y 在权利上是相等的。因此,我们从两边提取规范变量,它们形成对:从集合 X 变量 1 和从集合 Y 变量 1,它们之间的规范相关性最大;然后从集合 X 中变化 2 并从具有较小规范相关性的集合 Y 中变化 2 等。在 LDA 中,我们通常对来自类集方面的规范变量在数值上不感兴趣;然而,我们对解释集方面的规范变量感兴趣。这些被称为规范判别函数或判别式。
判别式与组之间的分离“线”最大相关。判别式 1 解释了分离的主要部分;判别式 2 选择了一些由于与先前分离的正交性而无法解释的分离;descriminat 3 解释了一些与前两个正交的分离残余,等等。在 LDA 中输入变量(维度)和分类可能的判别式数量(降维)是并且当 LDA 的假设保持这一数量时,它们完全区分了类,并且能够将数据完全分类到类中(参见 参考资料)。
重复一遍,这实际上是 CCA 的本质。具有 3 个以上类别的 LDA 甚至被称为“规范 LDA”。尽管CCA和LDA通常在算法上有所不同,但从程序效率的角度来看,它们足够“相同”,因此可以将在一个过程中获得的结果(系数等)重新计算到另一个过程中获得的结果。LDA 的大部分特异性在于对代表组的分类变量进行编码。这与在 (M)ANOVA 中观察到的困境相同。不同的编码方案导致系数的不同解释方式。
由于 LDA(作为降维)可以理解为 CCA 的一个特例,因此您肯定必须探索这个答案,将 CCA 与 PCA 和回归进行比较。主要的一点是,从某种意义上说,CCA 比 PCA 更接近回归,因为 CCA 是一种有监督的技术(提取潜在线性组合以与外部事物相关)而 PCA 不是(绘制潜在线性组合)总结内部)。这是降维的两个分支。
在数学方面,您可能会发现,虽然主成分的方差对应于数据云的特征值(变量之间的协方差矩阵),但判别式的方差与在低密度脂蛋白。原因是在 LDA 中,特征值不能概括数据云的形状;相反,它们涉及云中类间与类内变化之比的抽象量。
因此,主成分最大化方差,判别式最大化类别分离;一个简单的案例,PC 无法很好地区分类别,但可以区分这些图片。当在原始特征空间中绘制成线时,判别式通常不会出现正交(尽管不相关),但 PC 会出现。
脚注为细致。在他们的结果中,LDA 如何与 CCA 完全相关。重复一遍:如果你用p
变量和k
类做 LDA,用 Set1 作为那些p
变量,用 Set2 作为k-1
代表组的指标虚拟变量做 CCA(实际上,不一定是指标变量 - 其他类型的对比变量,例如偏差或 Helmert - 会做),那么结果与为 Set1 提取的规范变量等价——它们直接对应于在 LDA 中提取的判别函数。但是,确切的关系是什么?
LDA 的代数和术语在这里解释,CCA 的代数和术语在这里解释。典型相关将是相同的。但是系数和“潜在”的值(分数)呢?考虑一个判别者和对应者 (th) 规范变量。对他们来说,
“在类方差中合并”是组中权重 = 的组方差的加权平均值n-1
。在判别式中,这个量是(在 LDA 代数链接中读取),因此从 LDA 结果切换到 CCA 结果的比例系数很简单
CCA 和 LDA 之间的区别在于 LDA“知道”存在类(组):您直接指示组来计算散布矩阵内部和散布矩阵之间。这使得计算速度更快,结果更便于随后的判别分类。另一方面,CCA 不知道类并处理数据,就好像它们都是连续变量一样 - 这是更通用但计算速度较慢的方式。但结果是等效的,我已经展示了如何。
到目前为止,这暗示了k-1
假人以典型的方式输入 CCA,即居中(如 Set1 的变量)。有人可能会问,是否可以输入所有k
假人而不将它们居中(以逃避奇点)?是的,这是可能的,尽管可能不太方便。将出现一个零特征值的附加规范变量,它的系数应该被丢弃。其他结果仍然有效。除了df s 来检验典型相关的显着性。第一个相关的 Df 将p*k
是错误的,而真正的 df,如在 LDA 中,是p*(k-1)
。