我想知道如何在 Excel 中检查数据集的正态性,只是为了验证是否满足使用 t 检验的要求。
对于右尾,只计算平均值和标准偏差是否合适,从平均值添加 1、2 和 3 个标准偏差以创建一个范围,然后在使用后将其与标准正态分布的正态 68/95/99.7 进行比较excel 中的 norm.dist 函数用于测试每个标准差值。
还是有更好的方法来测试正常性?
我想知道如何在 Excel 中检查数据集的正态性,只是为了验证是否满足使用 t 检验的要求。
对于右尾,只计算平均值和标准偏差是否合适,从平均值添加 1、2 和 3 个标准偏差以创建一个范围,然后在使用后将其与标准正态分布的正态 68/95/99.7 进行比较excel 中的 norm.dist 函数用于测试每个标准差值。
还是有更好的方法来测试正常性?
你有正确的想法。这可以通过相对简单的计算系统地、全面地完成。结果图称为正态概率图(有时也称为 PP 图)。从中您可以看到比其他图形表示形式(尤其是直方图)更多的细节,并且通过一些练习,您甚至可以学会确定重新表达数据的方法,以使它们在必要的情况下更接近正常。
这是一个例子:
数据在列中A
(并命名为Data
)。其余的都是计算,尽管您可以控制用于将参考线拟合到绘图的“铰链等级”值。
该图是一个散点图,将数据与通过独立于标准正态分布绘制的数字获得的值进行比较。当这些点沿对角线排列时,它们接近于法线;水平偏离(沿数据轴)表示偏离常态。在这个例子中,这些点非常靠近参考线;最大的偏离发生在最高值,大约是行左侧的单位。因此,我们一眼就能看出这些数据非常接近正态分布,但可能有一个稍微“轻”的右尾。这非常适合应用 t 检验。
纵轴上的比较值分两步计算。首先每个数据值从通过,数据量(显示在Count
单元格中的字段中F2
)。这些按比例转换为范围内的值到. 一个好的公式是 (请参阅http://www.quantdec.com/envstats/notes/class_02/characterizing_distributions.htmNormSInv
了解它的来源。)然后这些通过函数转换为标准正常值。这些值出现在Normal score
列中。Normal Score
右侧的图是针对数据的 XY 散点图。(在某些参考资料中,您会看到该图的转置,这可能更自然,但 Excel 更喜欢将最左边的列放在水平轴上,将最右边的列放在垂直轴上,所以我让它做它喜欢的事情。 )
(如您所见,我使用正态分布的独立随机抽取来模拟这些数据,均值和标准差. 因此,概率图看起来如此漂亮也就不足为奇了。)实际上只有两个公式可以输入,您可以向下传播以匹配数据:它们出现在单元格中B2:C2
并依赖于Count
在单元格中计算的值F2
。这就是它的全部内容,除了情节。
此表的其余部分不是必需的,但有助于判断图:它提供了对参考线的稳健估计。这是通过在绘图的左侧和右侧选择两个同样远的点并用一条线连接它们来完成的。在示例中,这些点是第三低和第三高的,由在Hinge Rank
单元格中,F3
. 作为奖励,它的斜率和截距分别是数据标准差和平均值的稳健估计。
为了绘制参考线,计算两个极值点并将其添加到图中:它们的计算发生在列I:J
、标记X
和Y
中。
您可以使用 Excel 中的数据分析工具包绘制直方图。图形方法更有可能传达非正态性的程度,这通常与假设检验更相关(参见正态性的讨论)。
如果您要求描述性统计并选择“汇总统计”选项,Excel 中的数据分析工具包也会为您提供偏度和峰度。例如,您可能会认为偏度值高于正负一是实质性非正态性的一种形式。
也就是说,t 检验的假设是残差是正态分布的,而不是变量。此外,它们也非常稳健,即使有相当多的非正态性,p 值仍然相当有效。
这个问题也接近统计理论——用有限的数据测试正态性可能是有问题的(尽管我们都时常这样做)。
作为替代方案,您可以查看峰度和偏度系数。来自Hahn 和 Shapiro:工程中的统计模型Beta1 和 Beta2 属性(第 42 到 49 页)和第 197 页的图 6-1 提供了一些背景知识。可以在 Wikipedia 上找到这背后的其他理论(参见 Pearson Distribution)。
基本上你需要计算所谓的属性 Beta1 和 Beta2。Beta1 = 0 和 Beta2 = 3 表明数据集接近正态性。这是一个粗略的测试,但由于数据有限,可以说任何测试都可以被认为是粗略的。
Beta1 分别与矩 2 和 3 或方差和偏度有关。在 Excel 中,这些是 VAR 和 SKEW。其中 ... 是您的数据数组,公式为:
Beta1 = SKEW(...)^2/VAR(...)^3
Beta2 分别与矩 2 和 4 或方差和峰度有关。在 Excel 中,它们是 VAR 和 KURT。其中 ... 是您的数据数组,公式为:
Beta2 = KURT(...)/VAR(...)^2
然后,您可以分别对照 0 和 3 的值检查这些值。这具有潜在识别其他分布的优势(包括 Pearson 分布 I、I(U)、I(J)、II、II(U)、III、IV、V、VI、VII)。例如,许多常用的分布,如 Uniform、Normal、Student's t、Beta、Gamma、Exponential 和 Log-Normal 可以从这些属性中表示:
Where: 0 <= Beta1 <= 4
1 <= Beta2 <= 10
Uniform: [0,1.8] [point]
Exponential: [4,9] [point]
Normal: [0,3] [point]
Students-t: (0,3) to [0,10] [line]
Lognormal: (0,3) to [3.6,10] [line]
Gamma: (0,3) to (4,9) [line]
Beta: (0,3) to (4,9), (0,1.8) to (4,9) [area]
Beta J: (0,1.8) to (4,9), (0,1.8) to [4,6*] [area]
Beta U: (0,1.8) to (4,6), [0,1] to [4.5) [area]
Impossible: (0,1) to (4.5), (0,1) to (4,1] [area]
Undefined: (0,3) to (3.6,10), (0,10) to (3.6,10) [area]
Values of Beta1, Beta2 where brackets mean:
[ ] : includes (closed)
( ) : approaches but does not include (open)
* : approximate
这些在 Hahn 和 Shapiro 图 6-1 中进行了说明。
当然这是一个非常粗略的测试(有一些问题),但您可能希望在采用更严格的方法之前将其视为初步检查。
在数据有限的情况下,Beta1 和 Beta2 的计算也有调整机制——但这超出了这篇文章的范围。