我可以使用卡方检验从模型中删除特定变量吗?

数据挖掘 统计数据 相关性 线性回归
2022-01-31 17:37:52

我有 5 个变量 -都是分类变量。v1v2v3v4v5

我进行了(卡方)检验以了解这些变量之间的关系。我可以看到的 p 值为 0。我知道这两个变量是相互依赖的。我应该从进一步分析中删除其中一个变量吗?χ2v3v4

如果相同的独立于其他变量,例如怎么办?v3v4v1v2v5

2个回答

你描述的是过滤方法。特征选择的三种方法之一。人们可能犯的最常见错误是将特征选择作为整个过程中的一个独立步骤,然后决定他将使用哪种模型。最合适的方法是将您的特征选择过程包含在您的准确性测试中,并尝试不同类型的特征选择。特征选择的最佳方法是领域知识。如果你没有它,那么你就开始使用这三种方法中的一种,比如过滤器方法。

您需要做的是使用标签列测试您的特征的卡方信息或互信息。这将为您提供哪些功能对您的预测影响较小,您可以将其删除。

您可以在此处此处找到有关功能选择的简要详细文章

我同意 Tasos 的回答。您可能希望采用的另一种工作方法是对分类变量使用对数线性分析。当您处理三个或更多分类变量时,这是一种有用的策略。简而言之,它基本上是分类变量的回归,使用起来非常简单。