我是数据挖掘的新手。我试图找到两个分类变量之间的关联。由于超过 20% 的预期频率小于 5,我想使用 Fisher 精确检验,但事实证明它通常用于 2x2 列联表,但我的变量有两个以上的值。非常感谢现在对我来说最好的行动方案的建议。以下是我在搜索后找到的一些选项:
- 使用 Freeman-Halton 扩展对超过 2x2 的表进行 Fisher 精确检验。
- 合并多个属性值,以便我最终得到 2x2 列联表,然后使用 Fisher 精确检验。
- 合并多个属性值,以便我最终得到预期计数 > 5,然后使用卡方检验进行独立性。
- 使用 Crammer V 测试。
我想知道在这种情况下,当您的具有> 2 个可能值的分类变量最终少于 5 个预期计数时,标准做法是什么?
谢谢,