我在 excel 中只有 1500 个数据点。但是,我想做一个卡方检验来证明数据是否是正态分布的。
我的问题是:如何计算如此大的数据集的预期范围?
更新
如何计算如此大数据集的相对频率?
我在 excel 中只有 1500 个数据点。但是,我想做一个卡方检验来证明数据是否是正态分布的。
我的问题是:如何计算如此大的数据集的预期范围?
更新
如何计算如此大数据集的相对频率?
使用电子表格快速检查分布的拟合优度并不是一个坏主意,特别是如果有人将电子表格中的一批数据交给您,或者您正在使用这些数据进行其他电子表格分析(或者如果您想检查其他软件以确认其准确性或您对其计算的理解)。以下是电子表格中卡方检验的样子:

此示例中的卡方统计量为,p 值为。数据以单独的(蓝色)颜色被挑选出来;突出显示重要值;和辅助值(我通常隐藏的列)以浅灰色文本显示。(一些计算是作为交叉检查完成的,例如“总计/最大值”行(行)中的值。)D14:H14
为了完成测试,
在检查数据之前,设置一个切点列表(列D),它将定义数据将落入的“箱”。例如,如果您希望数据介于和之间并且您有个值,则可以选择将此范围划分为宽度介于和之间的 bin 。(较小的宽度将给出平均数据,但可能一些极端的 bin 会有更小的计数;较大的宽度只给出bin,这可能只能粗略地区分数据的分布。)你做不是必须在垃圾箱之间放置相等的间隙。例如,通常,最极端的 bin 会变得更宽,以适应分布尾部的预期稀疏数据。
计算每个 bin(列F)中的数据计数。在 Excel 中,用于COUNTIF计算低于或等于每个切点(列E)的数据并减去每对连续计数以获得每个bin 中的计数。
使用最大似然(单元格B3:C4)估计您正在拟合的分布参数。(这里有一些捏造;有关更多信息,请参阅https://stats.stackexchange.com/a/17148。)对于正态分布,最大似然估计是平均值(AVERAGE)和未校正的(“人口” ) 标准差 ( STDEVP)。
使用累积分布函数获取每个 bin 中的期望值。在 Excel 中,CDF 是NORMINV. 在任何平台中,CDF 的参数都是分布参数和上bin 端点。G这给出了直到并包括端点(列)的所有值的预期总计数。因此,减去连续端点处的 CDF 值以获得箱(列H)中的预期值。请注意 CDF 的计算如何与COUNTIF查找 bin 计数的使用并行:bin 计数是经验分布,而 CDF 给出了与经验分布进行比较的参考分布。
应用卡方公式:从 bin 计数中减去期望值(残差);平方它们;除以期望;将所有内容加起来(单元格C6)。(实际上,在实践中稍微修改一下很方便:将残差除以 bin 计数的平方根(列I):这些本身就很有趣,因为非常正或非常负的值准确地表明了数据偏离参考分布。卡方统计量是残差的平方和。)
计算卡方 p 值(使用CHIDIST)(单元格C7)。
检查计数和残差。 如果相当大比例的计数不为零但小于,则 p 值是不可信的。如果残差显示出清晰的模式,例如从负到正再到负的稳步进展,那么无论卡方结果如何,您都可能有缺乏拟合的证据。(绘制残差图是个好主意,但这里没有显示。)
以下是示例中使用的公式:

在这种情况下,所有残差的大小都很小;他们没有模式;并且卡方 p 值很大。我们得出结论,这些数据看起来是正态分布的。(事实上,它们是通过公式和标准差的正态分布中抽取的。)NORMSINV(RAND())*2 + 5
请注意,这些公式广泛使用了命名范围。这些名称系统地对应于电子表格中显示的标签;例如,是以“数据”(列)为标题Data的范围。我强烈建议始终使用这种技术,因为它创建了可读的公式,而可读的公式往往是正确的。A:AA
复制这些公式时要小心:虽然列中的大多数公式E:I刚刚被复制下来,但通常每列中的第一个和最后一个公式略有不同。
1)没有测试可以证明您的数据是正态分布的。事实上,我敢打赌它不是。
(为什么任何分布都是完全正常的?你能说出实际上是什么吗?)
2) 在考虑分布形式时,假设检验通常会回答错误的问题。使用假设检验检查正态性的充分理由是什么?
我认为卡方检验或 Kolmogorov-Smirnov 检验可以很好地指示分布。
但是,如果不是,它们适用于哪些用例?
我可以想到一些正式测试发行版有意义的情况。一种常见的用途是测试一些随机数生成算法以生成均匀或法线。
3)如果你想测试正态性,卡方检验是一种非常糟糕的方法。为什么不进行 Shapiro-Francia 检验或根据估计调整 Anderson-Darling 呢?你将拥有更多的权力。
4)你所说的“预期范围”具体是什么意思?
通过预期范围,我的意思是卡方检验公式中的相对频率:ei=n∗pi
要获得预期计数,您需要将其拆分为子范围,并将总计数乘以子范围中的概率。