引用维基百科关于朴素贝叶斯分类器参数估计的文章:“一个典型的假设是与每个类相关的连续值是根据高斯分布分布的。”
我知道出于分析原因,高斯分布很方便。然而,有没有其他现实世界的理由来做出这个假设?如果人口由两个子人口(聪明/愚蠢的人,大/小苹果)组成怎么办?
引用维基百科关于朴素贝叶斯分类器参数估计的文章:“一个典型的假设是与每个类相关的连续值是根据高斯分布分布的。”
我知道出于分析原因,高斯分布很方便。然而,有没有其他现实世界的理由来做出这个假设?如果人口由两个子人口(聪明/愚蠢的人,大/小苹果)组成怎么办?
至少对我来说,正常的假设源于两个(非常有力的)原因:
中心极限定理。
高斯分布是最大熵(相对于香农熵的连续版本)分布。
我想你知道第一点:如果你的样本是许多过程的总和,那么只要满足一些温和的条件,分布就几乎是高斯分布(CLT 的概括实际上你没有必须假设总和的 rvs 是同分布的,例如,参见 Lyapunov CLT)。
第二点对于某些人(特别是物理学家)来说更有意义:给定分布的一阶和二阶矩,相对于连续香农熵测度(即在连续情况下有些武断,但至少对我而言,在离散情况下完全客观,但那是另一回事),是高斯分布。这是所谓的“最大熵原理”的一种形式,它并不广泛,因为熵形式的实际使用有些随意(有关此度量的更多信息,请参阅此 Wikipedia 文章)。
当然,这最后一个陈述也适用于多变量情况,即首先给出的最大熵分布(同样,关于香农熵的连续版本))和二阶信息(即协方差矩阵),可以证明是一个多元高斯。
PD:我必须补充一下最大熵原理,根据这篇论文,如果您碰巧知道变量的变化范围,则必须对通过最大熵原理得到的分布进行调整。
使用 CLT 来证明使用高斯分布的合理性是一个常见的谬误,因为 CLT 应用于样本均值,而不是单个观测值。因此,增加样本量并不意味着样本更接近正态性。
高斯分布是常用的,因为:
当然,最好的选择是使用考虑到上下文特征的分布,但这可能具有挑战性。但是,这是人们应该做的事情
“一切都应该尽可能简单,但不能简单。” (艾尔伯特爱因斯坦)
我希望这有帮助。
最良好的祝愿。
我的回答与第一响应者一致。中心极限定理告诉您,如果您的统计数据是一个总和或平均值,则无论单个样本的分布如何,在某些技术条件下它都将是近似正态的。但是你是对的,有时人们只是因为它看起来很方便而把它做得太过分了。如果您的统计数据是一个比率,并且分母可以为零或接近它,则该比率对于正常情况来说太重了。Gosset 发现,即使您从正态分布中采样归一化平均值,其中样本标准偏差用于归一化常数,当 n 是样本大小时,分布也是具有 n-1 自由度的 t 分布。在吉尼斯啤酒厂的现场实验中,他的样本量可能在 5 到 10 之间。在这些情况下,t 分布类似于标准正态分布,因为它关于 0 对称,但它有更重的尾部。请注意,随着 n 变大,t 分布确实会收敛到标准正态分布。在许多情况下,您的分布可能是双峰的,因为它是两个总体的混合。有时这些分布可以作为正态分布的混合来拟合。但它们肯定看起来不像正态分布。如果您查看基本统计教科书,您会发现许多参数连续和离散分布,这些分布经常出现在推理问题中。对于离散数据,我们有二项式、泊松、几何、超几何和负二项式等等。连续的例子包括卡方、对数正态、Cauchy、负指数、Weibull 和 Gumbel。