这可以被认为接近正态分布吗?

机器算法验证 正态分布 t检验
2022-04-09 14:15:52

我有一系列看起来像这样的数据,我想知道这是否可以被认为接近正态分布,即使它有一个向右的尾巴?我可以使用 t 检验并将“大”定义为超过 1 个标准差等,或者那会是错误的吗?

Count    1 536
Mean     27,8
Median   26,0
Mode     28,0
Stdv     14,4
Skew      0,9
Max      92,0
Min       0,0

这是数据的直方图:

在此处输入图像描述

1个回答

我认为您将几个不同的概念混合在一起。您询问正态性、使用 t 检验并确定某事物是否很大。

首先,不,显示的数据不被认为接近正常,但如果您有兴趣使用 t 检验,那么这不是重要的问题。在确定是否可以使用 t 检验时,总体和样本分布不如抽样分布重要。决定抽样分布形状的因素是总体分布、样本获取方式和样本量的组合。中心极限定理的美妙之处(我的墙上有一个十字绣),它的美妙之处在于,随着样本量变大,采样分布变得更像正态分布,所以对于大样本量和一个简单的随机样本(或类似于 SRS 的样本),我们可以使用 t 检验,并且近似值会非常好。这里重要的是样本量,不是数据或标准偏差。如果您认为上面显示的数据代表总体(这需要来自您对数据背后的科学知识的了解)并且样本量为 1536,则基于正态的推断(t 检验和其他)将是非常好的近似值。

如果您的目标是确定哪些农场“大”,那么 t 检验程序不会回答该问题。这将更多地取决于数据背后的科学和感兴趣的问题,并且您将无法对这些数据使用正态或 t 分布来查看有关单个农场的决策。