假设我正在做二进制分类,并且我想测试使用特征 X 是否重要。(例如,我可能正在构建一个决策树,我想看看是否应该修剪特征 X。)
我相信标准方法是在 2x2 表上使用卡方检验
X = 0 X = 1
Outcome = 0 A B
Outcome = 1 C D
但是,“更简单”(IMO)的测试是计算 X 给出正确结果的概率的统计数据:取 p = [(x = 0 和 Outcome = 0)+(x = 1 和 Outcome = 1) ] / [观察总数],并计算 p 远离 0.5 的显着性(例如,通过使用正态近似或威尔逊分数)。
与卡方方法相比,这种方法的缺点/优点是什么?是不是完全被误导了?它们是等价的吗?