我试图了解 LDA 如何“适应”其他监督学习技术。我已经在这里阅读了一些关于 LDA 的 LDA 式帖子。我已经熟悉感知器,但现在才学习 LDA。
LDA 如何“融入”监督学习算法家族?与其他方法相比,它的缺点可能是什么,它可以更好地用于什么?为什么要使用 LDA,例如可以使用感知器?
我试图了解 LDA 如何“适应”其他监督学习技术。我已经在这里阅读了一些关于 LDA 的 LDA 式帖子。我已经熟悉感知器,但现在才学习 LDA。
LDA 如何“融入”监督学习算法家族?与其他方法相比,它的缺点可能是什么,它可以更好地用于什么?为什么要使用 LDA,例如可以使用感知器?
正如 AdamO 在上述评论中所建议的那样,您最好阅读The Elements of Statistical Learning(我将其称为 HTF)的第 4 章,它将 LDA 与其他线性分类方法进行比较,给出了许多示例,并讨论了使用LDA 作为 PCA 脉络中的一种降维技术,正如 ttnphns 所指出的,它相当流行。
从分类的角度来看,我认为关键的区别在于这一点。想象一下,你有两个类,你想把它们分开。每个类都有一个概率密度函数。最好的情况是如果您知道这些密度函数,因为这样您就可以通过评估该点的特定类别密度来预测该点属于哪个类别。
某些类型的分类器通过找到类的密度函数的近似值来操作。LDA就是其中之一;它假设密度是具有相同协方差矩阵的多元正态分布。这是一个强有力的假设,但如果它大致正确,那么您将得到一个好的分类器。许多其他分类器也采用这种方法,但尝试比假设正态性更灵活。例如,参见 HTF 第 108 页。
另一方面,在第 210 页,HTF 警告:
如果分类是最终目标,那么很好地学习单独的类密度可能是不必要的,实际上可能会产生误导。
另一种方法是简单地寻找两个类之间的边界,这就是感知器所做的。一个更复杂的版本是支持向量机。这些方法还可以与使用称为核化的技术向数据添加特征相结合。这不适用于 LDA,因为它不保持正态性,但对于只是寻找分离超平面的分类器来说没有问题。
LDA 和寻找分离超平面的分类器之间的区别就像 t 检验和普通统计中的一些非参数替代方案之间的区别。后者更稳健(例如,对于异常值),但如果满足其假设,前者是最优的。
再提一点:可能值得一提的是,有些人可能出于文化原因使用 LDA 或逻辑回归等方法,这些方法可能会不厌其烦地吐出 ANOVA 表、假设检验和类似的东西。LDA是Fisher发明的;感知器最初是人类或动物神经元的模型,与统计数据无关。它也以另一种方式工作;有些人可能更喜欢支持向量机之类的方法,因为它们具有 20 世纪的方法无法比拟的尖端时髦信誉。这并不意味着他们更好。(如果我没记错的话,黑客机器学习中讨论了一个很好的例子。)
为了直觉,考虑这种情况:
这条线表示两个类别 o 和 x 之间的“最佳边界”。
LDA 试图找到一个使簇间方差最小化和簇内方差最大的超平面,然后将边界与该超平面正交。在这里,这可能不起作用,因为集群在同一方向上有很大的差异。
另一方面,感知器可能有更好的机会找到一个好的分离超平面。
但是,对于具有高斯分布的类,LDA 可能会做得更好,因为感知器只找到一个与数据一致的分离超平面,而不保证它选择哪个超平面(可能有无限个一致的超平面)。然而,更复杂的感知器版本可以选择具有一些最佳属性的超平面,例如最大化类之间的边距(这本质上是支持向量机所做的)。
另请注意,LDA 和感知器都可以通过内核技巧扩展到非线性决策边界。
LDA 与其他方法之间的最大区别之一是它只是一种机器学习技术,用于假设为正态分布的数据。在丢失数据或截断的情况下,这可能很棒,您可以使用 EM 算法在非常奇怪和/或有趣的情况下最大化可能性。警告购买者,因为模型错误指定,例如多模态数据,可能导致预测性能不佳,而 K-means 聚类会做得更好。多模式数据也可以使用 EM 来检测 LDA 中的潜在变量或聚类。
例如,假设您希望根据 CD4 计数来衡量 5 年内诊断为艾滋病阳性的概率。进一步假设您不知道会极大影响 CD4 计数并与进一步免疫抑制相关的特定生物标志物的价值。CD4 计数低于 400 低于大多数负担得起的检测的检测下限。EM 算法允许我们迭代计算未截断 DF 的 LDA 和生物标志物分配以及 CD4 的均值和协方差。