我正在使用模型来计算观察到的频率,有时会给出非整数值。我可以四舍五入这些频率,但这似乎人为地扭曲了我所拥有的信息。例如:
Example Data
Yes No
Male 11 19
Female 16 17
假设我的模型只是将所有内容除以 3,因此模型数据变为:
Yes No
Male 3.67 6.33
Female 5.33 5.67
该数据必须用作“观测频率”。进行卡方检验得出的 p 值为 0.58。但是,如果我将此数据四舍五入为整数,卡方检验将给出 0.8 的 ap 值,这是非常不同的。我的问题是:卡方检验在理论上对非整数观察频率有效吗?
编辑:请注意问题中指定的数据和模型不是真实的,只是为了让您了解我面临的问题。真实数据属于这种类型。
Male Female
Source1 10.8 18.2
Source2 16 17
真实数据是劳动统计局根据工作角色和城市对男性和女性的预测。
我无法控制来自 source1 的数据,其中(令人惊讶的是)包含小数点数字。我所能做的就是对来自 source1 的数据进行四舍五入。