正态分布与否?

机器算法验证 正态分布
2022-03-25 20:22:17

我是这里的新手。我的问题如下。

以下一组值是否正态分布?26, 33, 65, 28, 34, 55, 25, 44, 50, 36, 26, 37, 43, 62, 35, 38, 45, 32, 28, 34

以上值来自以下链接 https://www.mathsisfun.com/data/standard-normal-distribution.html

他们继续计算平均值和标准差以及相应的 z 分数,假设它们是正态分布的。

然而,当我使用 excel 在直方图上绘制值时,我得到了下面的图表(附加图像),它显示了一个正偏度,我们知道一组正态分布的观察完全没有偏度,即它完全对称。

在计算平均值、标准差和 z 分数之前,我们是否需要将数据集转换为正态分布值?...由于在现实世界的情况下,数据集可能不是正态分布的,那么我们如何继续对它们进行统计测试。在此处输入图像描述

2个回答

出于两个原因,您选择了错误的绘图来可视化您的样本。首先,您假设您的数据是连续的,因此计算不同的值是没有意义的。其次,您的样本非常小,因此即使使用离散数字,在大多数情况下,您也可以预期每个值的计数很小,这会导致平坦的条形图。

回想一下,对于连续随机变量Pr(X=x)=0,因此假设我们正在谈论连续随机变量,我们宁愿不要期望不同的值会多次出现在您的样本中——因此计算它们的出现是误导性的。这就是为什么对于连续随机变量,我们使用概率密度,即“每英尺”的概率。与其计算每个数字出现了多少个数,不如按间隔计算它们的个数。这就是为什么要使数据可视化而不是使用条形图,您应该使用直方图密度图

由于您的样本非常小,直方图可能会产生误导,因为可以使用的条形数量有限,并且每个条形中的案例数量很少(无论您的变量是离散的还是连续的)。在这种情况下,密度图(见下文)可能会提供更多信息。

在此处输入图像描述

作为一个反例,您可以在下面看到使用伪随机数生成器(黑条)和密度图(红线)从正态分布生成的值的条形图。

在此处输入图像描述

如您所见, barplot 会“暗示”这个完全正常的数据几乎是均匀分布的......

至于您的样本是否是正态分布的——数据似乎包含整数而不是实数,所以显然它不是完全正常的。此外,分布是倾斜的而不是对称的。但是在大多数情况下,这不是问题,因为我们对近似正态性感兴趣。请参阅:正态性测试“基本上没用”吗?

以下一组值是否正态分布?26, 33, 65, 28, 34, 55, 25, 44, 50, 36, 26, 37, 43, 62, 35, 38, 45, 32, 28, 34

显然不是;它们是整数。

[更准确地说,它不是一组正态分布的观察值(一组已知值的 ECDF 是离散的,值本身是有界的,等等);正态性是人口分布的一个属性,可以从中抽取观察到的样本。但不是这个。]n

然而,尽管出于某种原因,我们不能从正态分布中获取样本通常很清楚,但询问样本是否来自正态分布很少有兴趣。一个更相关的问题是它是否可能是一个合适的近似值——但要回答这个问题,你需要更多地了解你在做什么,你可能对非正态性产生什么影响,以及你对此的容忍度影响可能是(或者你的观众的容忍度,也许)。

(关于形状值得注意的一点是,可以从 QQ 图或任何数量的其他显示中看到,这取决于您用来研究分布形状的方式。您应该显示合适的显示并对其进行解释。显示你显示 - 尽管被标记为直方图,但它不是直方图 - 并不适合,因为它掩盖了数据中的相对差距。它似乎将 x 轴值视为一组有序类别标签而不是数字表示位置的东西。)

qq数据图
数据的 QQ 图表示偏度

我们知道一组正态分布的观察完全没有偏度

我当然不知道;事实上,我知道这是不正确的——正态分布的样本肯定会有些偏斜,只是随机变化。这是完全没有偏斜的人口。

但是你的结论——数据表明偏度——是正确的,只是在你的问题的图表中更难看到。

在此处输入图像描述

这是一个点图,它比条形图做得更好。实际的直方图应该足够了。(如果有更多数据,我会看看其他东西——用单独的细条表示相对频率,就像你的显示器一样,​​但是用 x 位置表示值,类似于直方图。在 R 中你得到这个plot(table(x)),但对于像这样具有很少重复值的非常小的样本,我更喜欢点图。)

在计算平均值、标准差和 z 分数之前,我们是否需要将数据集转换为正态分布值?

您可以从转换数据的均值(等)中得出什么结论?

...因为在现实世界的情况下,数据集可能不是正态分布的

在现实世界的情况下,除了少数特殊情况外,您并没有真正的正态分布。

那么我们如何继续对它们进行统计测试。

  1. 并非所有测试都假设正常

  2. 即使对于那些这样做的人来说,正态性假设并不总是很重要(有时它可能只是一点点,有时它可能很重要——它可能取决于测试和样本量)。

  3. 转型通常不是您应该首先考虑的事情。您首先应该真正注意您需要对数据提出哪些问题(您需要找出什么?)。然后你可以担心什么可能是合适的方法来做到这一点。可能涉及转型,但它可能更好地涉及其他东西。

你有兴趣从这些数据中发现什么?如果你不知道,你为什么要先转型?它可能对回答感兴趣的问题没有任何价值。