机器算法验证 - 什么是高斯判别分析 (GDA)？ - 吾爱随笔录

什么是高斯判别分析 (GDA)？

机器算法验证机器学习判别分析

2022-03-02 03:22:29

什么是高斯判别分析 (GDA)？应该阅读哪些材料来了解 GDA 的工作原理以及它的来源？尝试为高中水平的人解释这一点。

3个回答

GDA 是一种数据分类方法，通常在数据可以近似为正态分布时使用。作为第一步，您将需要一个训练集，即一堆尚未分类的数据。这些数据用于训练您的分类器，并获得一个判别函数，该函数将告诉您数据属于哪个类别的概率更高。

当你有你的训练集时，你需要计算平均值 $\mu$ 和标准差 $\sigma^2$ . 如您所知，这两个变量允许您描述正态分布。

一旦你计算了每个类的正态分布，为了对数据进行分类，你需要为每个类计算该数据属于它的概率。概率最高的类将被选为亲和类。

有关正态密度判别函数的更多信息，请参阅教科书，如模式分类 DUDA、HART、SOTRK或模式识别和机器学习 BISHOP。

也可以在此处找到 GDA 教程第 1部分和第 2部分

我认为 Andrew Ng 关于 GDA 的笔记（https://web.archive.org/web/20200103035702/http://cs229.stanford.edu/notes/cs229-notes2.pdf）是我所见过的对该概念的最佳解释，但我想按照要求“尝试为高中水平的人解释这一点”（并将其与安德鲁的笔记联系起来，供那些关心数学的人使用）。

想象一下，你有两个班级。将一类描述为 $y=0$ 和一类作为 $y=1$ . 可能 $apples$ 对比 $oranges$ ，例如。

你有一个数据点 $x$ 描述了对其中一件事情的观察。观察可以是，即 $[price, diameter, weight, color]$ . 它可以是任何可以测量的属性的集合，你可以测量尽可能多的东西来描述一个 $x$ 随你便。如果我们测量 4 个不同的事物来描述一个 $x$ ，那么我们说 $x$ 是 4 维的。一般来说，我们称之为 $d$ .

这是 Andrew 笔记中的 GDA 模型：

用简单的英语说：

$p(y)$ 可以说是一次不公平的抛硬币。例如，它可能是 $p(y=0) = 0.4$ 和 $p(y=1) = 0.6$ . 也就是说，世界上有 40% 的可能性是苹果，有 60% 的可能性是橙子。

给定 $y=0$ （即，如果我们可以假设这个东西是一个苹果），x 中的所有测量值都与一些参数集正态分布 $\mu_0$ 和 $\Sigma$ . $\mu_0$ 不是一个值 - 它是一个 $d$ 维向量。要定义正态分布，我们需要一个 $\mu$ 对于 x 的每个维度（平均价格、平均重量等）以及 $d$ X $d$ 协方差矩阵 $\Sigma$ 描述了维度如何相互关联。为什么？因为某些事情可能是相关的（即大水果可能更重）。

我们假设如果 $y=1$ （这个东西是橙色的），它的测量结果也很正常。除了他们的手段不同，我们用 $\mu_1$ . 我们使用相同的 $\Sigma$ 尽管。¹

好的......在所有这些设置之后，做一个思想实验：

掷一枚不公平的硬币，确定某物是苹果还是橙色。然后根据该结果，转到正态分布 0 或正态分布 1，并对数据点进行采样。如果您多次重复此操作，您将获得大量数据点 $d$ 维空间。如果我们有足够的数据，这些数据的分布将是我们从中生成的特定模型的“典型”。

（因此他的笔记被称为“生成学习算法”）

但是如果我们反过来做呢？我给你一堆数据，我告诉你它是以这种方式生成的。反过来，你可以回来告诉我硬币上的概率，以及 $\mu$ 沙 $\Sigma$ s 的两个正态分布，尽可能地拟合这个数据。这个向后的练习是 GDA。

¹注意安德鲁的模型使用相同的协方差矩阵 $\Sigma$ 两个班级。这意味着无论我的一个班级的正态分布是什么样的 - 无论它是高/胖/倾斜 -我假设另一个班级的协方差矩阵看起来也完全一样。

什么时候 $\Sigma$ 类之间是相同的，我们有一个称为线性判别分析的 GDA 特殊情况，因为它会导致线性决策边界（请参见 Andrew 笔记中的下图）。

这个假设肯定是错误的，GDA 在最一般的情况下描述了这个练习，当 $\Sigma$ 类之间的 s 可以不同。

GDA 是线性分布分析的一种形式。从一个已知的 $P(x|y)$ ,

P (y | x) = \frac{P (x | y) P_{p r i o r} (y)}{Σ_{g \in Y} P (x | g) P_{p r i o r} (g)}

$P(y|x) = \frac{P(x|y)P_{prior}(y)}{\Sigma_{g \in Y} P(x|g) P_{prior}(g) }$

是通过应用贝叶斯推导出来的。

正如@ttnphns 指出的那样，它基本上通常用作任何判别分析的通用标签，该分析假设人口显示高斯分布。如需更深入的解释，请阅读Fisher 1936 年在《优生学年鉴》中发表的论文（是的，它确实是这么称呼的）。读起来很难而且没有收获，但它是这个想法的来源（一点警告：与葡萄酒不同，论文不会变得更好，而且考虑到它是用数学术语写的时，这篇文章读起来非常混乱'不要使用'生成分布分析模型'之类的想法，因此这里存在一定程度的术语混乱）。我在此可耻地承认我主要是自学成才，我在 GDA 上的教育主要来自斯坦福大学的 Andrew Ng 的精彩讲座（如果这是你的乐趣的话）非常值得一看（并用当代语言谈论这个主题）。

其它你可能感兴趣的问题

上一篇为什么密度图和地毯图似乎不一致？下一篇为什么在验证性因子分析中将权重设置为 1？