什么是高斯判别分析 (GDA)?

机器算法验证 机器学习 判别分析
2022-03-02 03:22:29

什么是高斯判别分析 (GDA)?应该阅读哪些材料来了解 GDA 的工作原理以及它的来源?尝试为高中水平的人解释这一点。

3个回答

GDA 是一种数据分类方法,通常在数据可以近似为正态分布时使用。作为第一步,您将需要一个训练集,即一堆尚未分类的数据。这些数据用于训练您的分类器,并获得一个判别函数,该函数将告诉您数据属于哪个类别的概率更高。

当你有你的训练集时,你需要计算平均值μ和标准差σ2. 如您所知,这两个变量允许您描述正态分布。

一旦你计算了每个类的正态分布,为了对数据进行分类,你需要为每个类计算该数据属于它的概率。概率最高的类将被选为亲和类。

有关正态密度判别函数的更多信息,请参阅教科书,如模式分类 DUDA、HART、SOTRK模式识别和机器学习 BISHOP

也可以在此处找到 GDA 教程第 1部分和第 2部分

我认为 Andrew Ng 关于 GDA 的笔记(https://web.archive.org/web/20200103035702/http://cs229.stanford.edu/notes/cs229-notes2.pdf)是我所见过的对该概念的最佳解释,但我想按照要求“尝试为高中水平的人解释这一点”(并将其与安德鲁的笔记联系起来,供那些关心数学的人使用)。

想象一下,你有两个班级。将一类描述为y=0和一类作为y=1. 可能apples对比oranges, 例如。

你有一个数据点x描述了对其中一件事情的观察。观察可以是,即[price,diameter,weight,color]. 它可以是任何可以测量的属性的集合,你可以测量尽可能多的东西来描述一个x随你便。如果我们测量 4 个不同的事物来描述一个x,那么我们说x是 4 维的。一般来说,我们称之为d.

这是 Andrew 笔记中的 GDA 模型:

在此处输入图像描述

用简单的英语说:

p(y)可以说是一次不公平的抛硬币。例如,它可能是p(y=0)=0.4p(y=1)=0.6. 也就是说,世界上有 40% 的可能性是苹果,有 60% 的可能性是橙子。

给定y=0(即,如果我们可以假设这个东西是一个苹果),x 中的所有测量值都与一些参数集正态分布μ0Σ.μ0不是一个值 - 它是一个d维向量。要定义正态分布,我们需要一个μ对于 x 的每个维度(平均价格、平均重量等)以及dXd协方差矩阵Σ描述了维度如何相互关联。为什么?因为某些事情可能是相关的(即大水果可能更重)。

我们假设如果y=1(这个东西是橙色的),它的测量结果也很正常。除了他们的手段不同,我们用μ1. 我们使用相同的Σ尽管。1

好的......在所有这些设置之后,做一个思想实验:

掷一枚不公平的硬币,确定某物是苹果还是橙色。然后根据该结果,转到正态分布 0 或正态分布 1,并对数据点进行采样。如果您多次重复此操作,您将获得大量数据点d维空间。如果我们有足够的数据,这些数据的分布将是我们从中生成的特定模型的“典型”。

(因此他的笔记被称为“生成学习算法”)

但是如果我们反过来做呢?我给你一堆数据,我告诉你它是以这种方式生成的。反过来,你可以回来告诉我硬币上的概率,以及μΣs 的两个正态分布,尽可能地拟合这个数据。这个向后的练习是 GDA


1注意安德鲁的模型使用相同的协方差矩阵Σ两个班级。这意味着无论我的一个班级的正态分布是什么样的 - 无论它是高/胖/倾斜 -我假设另一个班级的协方差矩阵看起来也完全一样。

什么时候Σ类之间是相同的,我们有一个称为线性判别分析的 GDA 特殊情况,因为它会导致线性决策边界(请参见 Andrew 笔记中的下图)。

在此处输入图像描述

这个假设肯定是错误的,GDA 在最一般的情况下描述了这个练习,当Σ类之间的 s 可以不同。

GDA 是线性分布分析的一种形式。从一个已知的P(x|y),

P(y|x)=P(x|y)Pprior(y)ΣgYP(x|g)Pprior(g)

是通过应用贝叶斯推导出来的。

正如@ttnphns 指出的那样,它基本上通常用作任何判别分析的通用标签,该分析假设人口显示高斯分布。如需更深入的解释,请阅读Fisher 1936 年在《优生学年鉴》中发表的论文(是的,它确实是这么称呼的)。读起来很难而且没有收获,但它这个想法的来源(一点警告:与葡萄酒不同,论文不会变得更好,而且考虑到它是用数学术语写的时,这篇文章读起来非常混乱'不要使用'生成分布分析模型'之类的想法,因此这里存在一定程度的术语混乱)。我在此可耻地承认我主要是自学成才,我在 GDA 上的教育主要来自斯坦福大学的 Andrew Ng 的精彩讲座(如果这是你的乐趣的话)非常值得一看(并用当代语言谈论这个主题)。