方差是否仅适用于正态分布的数据(作为离散度的度量)?

机器算法验证 自习 正态分布 方差
2022-04-03 10:29:52

它在维基百科上说

正态分布在中心极限定理中的作用部分是导致概率和统计中的方差普遍存在的原因。

我将其理解为
当我们使用方差/SD 作为离散度的度量时,我们实际上是在寻找正态分布的“缩放参数”,因为随机随机变量可能遵循 CLT 的近似正态分布。

在数据不是正态分布的情况下,方差/SD仍然是分散的合理度量吗?

假设数据是均匀分布的,平均绝对偏差似乎比方差更好地衡量离散度,因为它可以看作是均匀分布的“尺度参数”,对吗?


更新
我的意思是,假设我有两组样本,一组是{1,1,1,-1,-1,-1},另一组是从正态分布中提取的N(0,1),它们的方差都是1。如果我们使用方差作为度量,这两个集合将被认为具有相同的离散程度。

但感觉就像我们强行将它们都视为高斯,然后计算出分布参数并说“是的,它们在色散方面是相等的”。

2个回答

您的问题有点含糊,但不,没有使用方差,因为它与正态分布有关。大多数分布至少具有均值和方差。有些没有差异。有些可以有或没有差异。有些没有平均值,因此没有方差。

只是为了让您在心理上澄清一下,如果分布有均值,那么x¯μ,但如果不是那么x¯nothing. 那就是它无处不在,任何计算都只是围绕实数线浮动。这并不意味着什么。如果您为没有标准差的分布计算标准差,情况也是如此。它没有任何意义。

方差是分布的属性。你是对的,因为它可以用来扩展问题,但它比这更深。在一些理论框架中,它是衡量我们的无知或更准确地说是不确定性的尺度。在其他情况下,它衡量机会对结果的影响有多大。

尽管方差是离散的概念化,但它是不完整的概念化。偏斜和峰度都进一步解释了色散如何在问题上起作用。

对于零假设思维框架中的许多问题,中心极限定理使问题的讨论变得更简单,因此正态分布(具有非常明确的分布特性)与使用标准差。然而,对于简单的问题比复杂的问题更是如此。对于不使用零假设且不依赖于估计量的抽样分布的贝叶斯方法,这也不太正确。

平均绝对偏差在无参数和无分布方法中是一个有价值的工具,但对于均匀分布来说价值不大。如果您实际上有一个有界均匀分布,那么均值和方差是已知的。

让我给你一个均匀分布的问题,可能没有你想的那么简单。考虑到战场上出现了新的敌方主战坦克。你不知道他们有多少,更不用说他们存在了。您想估计坦克的总数。

坦克的引擎上有序列号,或者在有人发现之前就已经习惯了。捕获任何一个特定序列号的概率为1/N在哪里N是坦克的总数。你当然不知道N,所以这是一个有趣的问题。你需要知道N。你只能看到捕获序列号的分布,不知道捕获的最大编号是否也是最后建造的坦克。可能不是。

在这种情况下,均值和标准差提供了解决问题的最有力工具,尽管直觉上标准差是一个糟糕的估计量。

确实,对于某些问题,它是一个糟糕的估计器,但您需要根据具体情况来学习它们。

统计工具的选择基于需求、数学规则以及现实世界成本和限制以及问题需求之间的权衡。有时这是方差,但有时不是。最好的办法是了解为什么这些规则是按原样设计的,而这对于在这里发布来说太长了。

我会推荐一本关于非参数统计的优秀从业者书籍,如果你有微积分,那么推荐一本关于贝叶斯方法的优秀从业者入门书籍。

  1. 首先,我们需要明确分布变异性的度量(例如其标准偏差或平均偏差或其范围)与从样本中估计该度量的最佳方法之间的区别。例如,如果您的分布是均匀的,则总体平均偏差与平均值的最佳样本估计不是样本平均偏差 - 实际上范围的一小部分通常要好得多。

    (当然,如果你真的不知道你可能处理的是什么发行版,那么这些考虑可能没有多大帮助。)

  2. 那么为什么要通过方差来衡量人口变异性呢?

    方差(以及由此而来的标准差)具有其他变异性度量所不具有的非常特殊的属性,这是变量总和(以及更普遍的线性组合)方差的一种非常简单的形式。

    当你有独立性时,简单的形式会变得更加简单。

    具体来说,在独立的情况下,Var(X+Y)=Var(X)+Var(Y)正因为如此,标准差的形式也很简单。非独立情况并不复杂。

    其他的可变性度量没有这么简单的特性。

    这使得方差(以及标准偏差)成为测量分布变异性的非常有吸引力的方法。

  3. 第二个原因是平均值(通常被视为自然位置度量)是最小化平方误差损失函数的位置——当你最小化它时,你会得到方差。许多人认为平方误差损失函数是自然的或有用的,在这种情况下,方差反过来成为变化的自然度量。