使用决策树方法来识别多重回归的自变量

数据挖掘 回归 线性回归 决策树
2022-02-16 14:21:36

可以访问包含数百个变量和数百万个案例的数据集(美国社区调查)。

需要确定一组小的、可管理的自变量 ( IV ) 以用于多重回归。

当然,做到这一点的一种方法是使用适用的理论来识别 IV。

想知道如何使用数据驱动(数据挖掘?)方法,如下所示:

  • 使用决策树来识别有影响力的(候选人?相关?)IV?
  • 然后将这些用作多元回归中的 IV?

(似乎记得读过一次,顺便说一下,这种减少变量的方法是允许的。)

尝试在 Google 上搜索阐明上述内容的文章,但搜索词使我不断获得比较决策树和多重回归的文章。

因此,如果您知道描述如何执行上述操作的文章和研究论文,请在下面留下链接。另外,我欢迎您就如何继续提出自己的原创建议。

1个回答

决策树对于确定 IV 和 DV 组合之间的嵌套/交互关系很有用。

您指定的模型(多元回归)预设了 IV 和 DV 之间的关系(例如线性)。

如您所知,这些模型是不同的。因此,使用决策树和一些重要性度量来查找预测变量不一定会为您提供回归模型中的最佳 IV 集。

话虽如此,它可以帮助您了解非线性关系或交互项,这些关系或交互项可能具有预测性,并且可能无法通过指定模型(例如多元回归)来捕获。

如果我是你,我不会仅仅依靠使用决策树来确定回归模型的一组 IV。我将研究惩罚回归方法,例如 LASSO 或岭回归,以帮助您从减少的候选 IV 集到最终的 IV。此外,您可能希望探索与模型规范相关的关联指标,这些指标可能有助于探索数据中的关系,例如信息值、卡方检验、相关性等。

这可能会有所帮助: https ://stats.stackexchange.com/questions/47367/decision-tree-as-variable-selection-for-logistic-regression