我正在构建一个预测模型,旨在预测我的组织内的人员流失。我正在尝试决定是否将某些预测变量添加到我的模型中。我使用 Kruskal-Wallis 秩和检验来检查我的一些预测变量和我的响应变量之间的相关性,发现预测变量独立于我的响应。我还应该在我的模型中包含这些变量吗?由于与我的响应变量缺乏相关性,我倾向于否,但不想在我的决策树中丢弃潜在的“分裂”。我的数据集包含 8,225 个观察值和 173 列,我一直将其用作预测变量。
在创建分类模型时,与响应变量相关性很小的预测变量是否应该包含在模型中?
数据挖掘
机器学习
分类
预测建模
决策树
相关性
2022-02-15 12:51:13
2个回答
一般来说,Kruskal-Wallis 检验(或任何其他单变量检验)不能保证与决策树可能仍会拾取的其他特征没有有用的交互。这意味着在你尝试之前你不会确定。
您可以在使用和不使用这些“弱”功能的情况下测试性能并比较结果。确保在包含所有功能时控制过拟合。或者,在拟合决策树后,您可以在改变特征值(“部分依赖”)时查看目标响应。
在开发预测模型时,我通常更喜欢让模型决定什么对预测最重要。如果你有足够的数据,模型应该学会忽略不重要的预测变量;但按照@oW_ 的建议,请仔细注意过度拟合。
一些想法:
统计检验通常会做出假设。树方法的好处之一是它们可以在不受假设约束的情况下对关系进行建模。
正如@oW_ 所暗示的那样,一个预测器本身可能看起来并不重要,但它与其他预测器结合起来可能很重要。
树方法的另一个好处是它们可以利用许多弱预测器来产生强预测器。
在预测的情况下,除非你有充分的理由,否则我发现尝试手动选择预测变量会失去不止一个收益。