可以访问包含数百个变量和数百万个案例的数据集(美国社区调查)。
需要确定一组小的、可管理的自变量 ( IV ) 以用于多重回归。
当然,做到这一点的一种方法是使用适用的理论来识别 IV。
想知道如何使用数据驱动(数据挖掘?)方法,如下所示:
- 使用决策树来识别有影响力的(候选人?相关?)IV?
- 然后将这些用作多元回归中的 IV?
(似乎记得读过一次,顺便说一下,这种减少变量的方法是允许的。)
尝试在 Google 上搜索阐明上述内容的文章,但搜索词使我不断获得比较决策树和多重回归的文章。
因此,如果您知道描述如何执行上述操作的文章和研究论文,请在下面留下链接。另外,我欢迎您就如何继续提出自己的原创建议。