以下一组值是否正态分布?26, 33, 65, 28, 34, 55, 25, 44, 50, 36, 26, 37, 43, 62, 35, 38, 45, 32, 28, 34
显然不是;它们是整数。
[更准确地说,它不是一组正态分布的观察值(一组已知值的 ECDF 是离散的,值本身是有界的,等等);正态性是人口分布的一个属性,可以从中抽取观察到的样本。但不是这个。]n
然而,尽管出于某种原因,我们不能从正态分布中获取样本通常很清楚,但询问样本是否来自正态分布很少有兴趣。一个更相关的问题是它是否可能是一个合适的近似值——但要回答这个问题,你需要更多地了解你在做什么,你可能对非正态性产生什么影响,以及你对此的容忍度影响可能是(或者你的观众的容忍度,也许)。
(关于形状值得注意的一点是,可以从 QQ 图或任何数量的其他显示中看到,这取决于您用来研究分布形状的方式。您应该显示合适的显示并对其进行解释。显示你显示 - 尽管被标记为直方图,但它不是直方图 - 并不适合,因为它掩盖了数据中的相对差距。它似乎将 x 轴值视为一组有序类别标签而不是数字表示位置的东西。)

数据的 QQ 图表示偏度
我们知道一组正态分布的观察完全没有偏度
我当然不知道;事实上,我知道这是不正确的——正态分布的样本肯定会有些偏斜,只是随机变化。这是完全没有偏斜的人口。
但是你的结论——数据表明偏度——是正确的,只是在你的问题的图表中更难看到。

这是一个点图,它比条形图做得更好。实际的直方图应该足够了。(如果有更多数据,我会看看其他东西——用单独的细条表示相对频率,就像你的显示器一样,但是用 x 位置表示值,类似于直方图。在 R 中你得到这个plot(table(x))
,但对于像这样具有很少重复值的非常小的样本,我更喜欢点图。)
在计算平均值、标准差和 z 分数之前,我们是否需要将数据集转换为正态分布值?
您可以从转换数据的均值(等)中得出什么结论?
...因为在现实世界的情况下,数据集可能不是正态分布的
在现实世界的情况下,除了少数特殊情况外,您并没有真正的正态分布。
那么我们如何继续对它们进行统计测试。
并非所有测试都假设正常
即使对于那些这样做的人来说,正态性假设并不总是很重要(有时它可能只是一点点,有时它可能很重要——它可能取决于测试和样本量)。
转型通常不是您应该首先考虑的事情。您首先应该真正注意您需要对数据提出哪些问题(您需要找出什么?)。然后你可以担心什么可能是合适的方法来做到这一点。它可能涉及转型,但它可能更好地涉及其他东西。
你有兴趣从这些数据中发现什么?如果你不知道,你为什么要先转型?它可能对回答感兴趣的问题没有任何价值。