什么是高斯判别分析 (GDA)?应该阅读哪些材料来了解 GDA 的工作原理以及它的来源?尝试为高中水平的人解释这一点。
什么是高斯判别分析 (GDA)?
我认为 Andrew Ng 关于 GDA 的笔记(https://web.archive.org/web/20200103035702/http://cs229.stanford.edu/notes/cs229-notes2.pdf)是我所见过的对该概念的最佳解释,但我想按照要求“尝试为高中水平的人解释这一点”(并将其与安德鲁的笔记联系起来,供那些关心数学的人使用)。
想象一下,你有两个班级。将一类描述为和一类作为. 可能对比, 例如。
你有一个数据点描述了对其中一件事情的观察。观察可以是,即. 它可以是任何可以测量的属性的集合,你可以测量尽可能多的东西来描述一个随你便。如果我们测量 4 个不同的事物来描述一个,那么我们说是 4 维的。一般来说,我们称之为.
这是 Andrew 笔记中的 GDA 模型:
用简单的英语说:
可以说是一次不公平的抛硬币。例如,它可能是和. 也就是说,世界上有 40% 的可能性是苹果,有 60% 的可能性是橙子。
给定(即,如果我们可以假设这个东西是一个苹果),x 中的所有测量值都与一些参数集正态分布和.不是一个值 - 它是一个维向量。要定义正态分布,我们需要一个对于 x 的每个维度(平均价格、平均重量等)以及X协方差矩阵描述了维度如何相互关联。为什么?因为某些事情可能是相关的(即大水果可能更重)。
我们假设如果(这个东西是橙色的),它的测量结果也很正常。除了他们的手段不同,我们用. 我们使用相同的尽管。1
好的......在所有这些设置之后,做一个思想实验:
掷一枚不公平的硬币,确定某物是苹果还是橙色。然后根据该结果,转到正态分布 0 或正态分布 1,并对数据点进行采样。如果您多次重复此操作,您将获得大量数据点维空间。如果我们有足够的数据,这些数据的分布将是我们从中生成的特定模型的“典型”。
(因此他的笔记被称为“生成学习算法”)
但是如果我们反过来做呢?我给你一堆数据,我告诉你它是以这种方式生成的。反过来,你可以回来告诉我硬币上的概率,以及沙s 的两个正态分布,尽可能地拟合这个数据。这个向后的练习是 GDA。
1注意安德鲁的模型使用相同的协方差矩阵两个班级。这意味着无论我的一个班级的正态分布是什么样的 - 无论它是高/胖/倾斜 -我假设另一个班级的协方差矩阵看起来也完全一样。
什么时候类之间是相同的,我们有一个称为线性判别分析的 GDA 特殊情况,因为它会导致线性决策边界(请参见 Andrew 笔记中的下图)。
这个假设肯定是错误的,GDA 在最一般的情况下描述了这个练习,当类之间的 s 可以不同。
GDA 是线性分布分析的一种形式。从一个已知的,
是通过应用贝叶斯推导出来的。
正如@ttnphns 指出的那样,它基本上通常用作任何判别分析的通用标签,该分析假设人口显示高斯分布。如需更深入的解释,请阅读Fisher 1936 年在《优生学年鉴》中发表的论文(是的,它确实是这么称呼的)。读起来很难而且没有收获,但它是这个想法的来源(一点警告:与葡萄酒不同,论文不会变得更好,而且考虑到它是用数学术语写的时,这篇文章读起来非常混乱'不要使用'生成分布分析模型'之类的想法,因此这里存在一定程度的术语混乱)。我在此可耻地承认我主要是自学成才,我在 GDA 上的教育主要来自斯坦福大学的 Andrew Ng 的精彩讲座(如果这是你的乐趣的话)非常值得一看(并用当代语言谈论这个主题)。