我对机器学习、CART 技术等还是很陌生,我希望我的天真不是太明显。
随机森林如何处理多层次/分层数据结构(例如,当感兴趣的跨层次交互时)?
即,具有多个层次级别的分析单元的数据集(例如,嵌套在学校内的学生,具有关于学生和学校的数据)。
举个例子,考虑一个多层次的数据集,第一层次的个人(例如,关于投票行为、人口统计等的数据)嵌套在第二层次的国家中(具有国家层次的数据;例如,人口):
ID voted age female country population
1 1 19 1 1 53.01
2 1 23 0 1 53.01
3 0 43 1 1 53.01
4 1 27 1 1 53.01
5 0 67 0 1 53.01
6 1 34 1 2 47.54
7 0 54 1 2 47.54
8 0 22 1 2 47.54
9 0 78 0 2 47.54
10 1 52 0 2 47.54
可以说这voted
是响应/因变量,其他是预测/自变量。在这些类型的情况下,变量(部分依赖)对于不同个体级别变量等的某些更高级别变量(例如)的边际和边际效应population
可能非常有趣。在与此类似的情况下glm
,当然更合适——但是当有很多变量、交互和/或缺失值,和/或非常大规模的数据集等时,glm
就不那么可靠了。
子问题:随机森林可以以某种方式显式处理这种类型的数据结构吗?如果无论如何都使用,它会引入什么样的偏见?如果随机森林不合适,是否还有其他集成类型的方法?
(关于分组数据的问题随机森林可能类似,但并没有真正回答这个问题。)