您如何选择用于卡方 GOF 测试的箱数?

机器算法验证 卡方检验 分箱 应用
2022-03-21 15:21:21

我正在开发一个关于放射性衰变的物理实验室,在分析我采集的样本数据时,我遇到了一个令我惊讶的统计问题。

众所周知,放射源单位时间内的衰变数是泊松分布的。实验室的工作方式是让学生计算每个时间窗口的衰减次数,然后重复多次。然后他们按计数对数据进行分类,并执行χ2使用 1 个估计参数(均值)的拟合优度检验来检查原假设(数据来自具有估计均值的泊松分布)是否成立。希望他们能得到一个很大的 p 值,并得出物理学确实有效的结论(耶)。

我注意到我对数据进行分箱的方式对 p 值有很大影响。例如,如果我选择了很多非常小的 bin(例如,每个整数都有一个单独的 bin:78 个计数/分钟、79 个计数/分钟等),我得到一个小的 p 值,并且不得不拒绝原假设. 但是,如果我将数据分箱到更少的箱中(例如,使用 Sturge 规则给出的箱数:1+log2(N)),我得到了一个更大的 p 值,并且没有拒绝原假设。

查看我的数据,它看起来非常泊松分布(它几乎与我的预期计数/分钟完全一致)。也就是说,垃圾箱中有一些计数与平均值相差甚远。这意味着当计算χ2使用非常小的垃圾箱进行统计,我有一些术语,例如:

(ObservedExpected)2Expected=(10.05)20.05=18.05
这导致高χ2统计量,因此 p 值较低。正如预期的那样,对于较大的 bin 宽度,问题就消失了,因为预期值永远不会那么低。

问题:

在进行χ2GOF测试?

不同箱大小的结果之间的这种差异是我应该知道的,还是表明我提出的数据分析中存在一些更大的问题?

- 谢谢

*(我在本科时上过统计学课,但这不是我的专业领域。)

1个回答

不同箱大小的结果之间的这种差异是我应该知道的,还是表明我提出的数据分析中存在一些更大的问题?

放射性衰变样本集的分箱在这里是一个红鲱鱼。真正的问题源于卡方(以及其他假设检验框架)对样本量高度敏感的事实。在卡方的情况下,随着样本量的增加,绝对差值在期望值中所占的比例越来越小。因此,如果样本量非常大,当发现很小且无趣时,我们可能会发现较小的 p 值和统计显着性。相反,如果样本量很小,一个相当强的关联可能不会那么显着。

在进行 χ2 GOF 测试时,是否有一个好的经验法则来选择 bin 大小?

答案似乎不应该以找到正确的 N 为目标(我不确定这是否可行,但如果其他人介入反驳会很好),但仅在 N 高时才超越 p 值。这似乎是一篇关于这个主题的好论文:太大而不能倒:大样本和 p 值问题

PS有 χ2 检验的替代品,例如Cramer's VG-Test但是,对于大 N -> 小 p 值,您仍然会遇到相同的问题。