卡方检验可以用于非整数观察频率吗?

机器算法验证 卡方检验 计数数据
2022-04-06 20:18:42

我正在使用模型来计算观察到的频率,有时会给出非整数值。我可以四舍五入这些频率,但这似乎人为地扭曲了我所拥有的信息。例如:

Example Data
          Yes        No
Male       11        19
Female     16        17

假设我的模型只是将所有内容除以 3,因此模型数据变为:

           Yes        No
Male       3.67        6.33
Female     5.33        5.67

该数据必须用作“观测频率”。进行卡方检验得出的 p 值为 0.58。但是,如果我将此数据四舍五入为整数,卡方检验将给出 0.8 的 ap 值,这是非常不同的。我的问题是:卡方检验在理论上对非整数观察频率有效吗?

编辑:请注意问题中指定的数据和模型不是真实的,只是为了让您了解我面临的问题。真实数据属于这种类型。

            Male     Female
Source1     10.8      18.2
Source2     16        17

真实数据是劳动统计局根据工作角色和城市对男性和女性的预测。
我无法控制来自 source1 的数据,其中(令人惊讶的是)包含小数点数字。我所能做的就是对来自 source1 的数据进行四舍五入。

3个回答

观察到的计数有小数点。

如果你有分数,你就没有观察到计数,而是别的东西。Counts 其实就是数东西,0、1、2……

. 真实数据是劳动统计局根据工作角色和城市对男性和女性的预测

预测不具有与计数数据相同的属性(包括相同的不确定性)。

卡方检验依赖于数据是实际观察到的计数,而不是计数的预测或任何其他计数操作。这是获得正确缩放比例所必需的OiEi(分母基于特定的假设,通常不适用于不重要的事物)。

结果,您的测试将不起作用 - 您不能将预测视为观察到的计数。它们是否是四舍五入的整数无关紧要(任何结果的唯一区别是非整数值表明您没有实际观察到的计数;如果预测已四舍五入,您可能永远不会知道有问题)。

甚至在四舍五入之前,您的部分问题就描述了在我看来有问题的事情。恕我直言,考虑它们是值得的,因为它们与四舍五入的原因有关。


缩放

假设我的模型只是将所有内容除以 3

该测试背后的基本原理涉及多项分布,并包含以下形式的组合项

(nn1nk)

这些项对于缩放不是不变的即,您不能将其替换为

(αnαkn1nk)=(αnαn1αnk)

并期望得到相同的结果。


测试假设

您的 3 划分可能是由于这是三个观察值的平均值。但是,在这种情况下,假设测试与此处相关存在问题:

一个常见的规则是 2×2 表格的所有单元格中有 5 个或更多

将除以 3 后,这不成立,并且数字不在可以假设该测试适用的范围内。

您在这里所做的是一种称为案例加权的说法。假设您正在进行一项研究,希望了解高中人口中虐待儿童的普遍性。在总体中,您有 50% 的男孩和 50% 的女孩,但是由于抽样误差,您的样本是 60% 的男孩和 40% 的女孩。

如果您假设女孩的患病率高于男孩,那么您的样本估计值将会缩小,因为样本不能很好地代表人口。您在这里所做的是对案例使用权重,您将声明每个男性参与者的权重为 0.83,每个女性参与者的权重为 1.25,因此您将得到例如 60 名男性参与者 * 0,83=50 和 40女性 * 1,25=50。

当你这样做时,你的频率可以变成分数,这在基于调查的研究中很常见。

软件有这方面的问题,例如 SPSS 在计算非参数统计时会忽略小数部分(想象当每个实体都有自己的权重时计算等级),并且 SPSS 在执行 CHI Square 检验时甚至会忽略权重。

然而,卡方的逻辑是,您首先计算观察值和预期值之间的差异,然后将其平方以消除方向并更加重视更大的差异,然后将其除以预期值以将其返回原始指标,并将其放在期望值方面。从这个角度来看,如果使用小数计数,逻辑仍然保留。如果你想计算这个,你应该检查你的软件如何处理加权数据,或者手工计算。

请注意,干预权重意味着干预统计能力,所以要小心:)