当我在随机森林(或任何其他模型)上运行变量重要性时,因子/分类变量名称以因子名称作为后缀。例如,
SALARY ~ STATE + CITY + AGE + …, the result of varImp(model) could look like,
> varImp(model)
rf variable importance
only 20 most important variables shown (out of 1050)
Importance
AGE 100.00
STATECA 91.84
STATEAZ 86.24
CITYSTANFORD 74.15
STATEVT 71.27
就相对重要性而言,将其解释为 AGE 是最重要的预测因子是否正确,其次是 STATE,然后是 CITY?
重要性值也没有说明预测变量和结果之间的关系——例如,更高的年龄是否等于更高的薪水,STATE CA 是否意味着更高的薪水,等等。关于如何获得这些度量的任何建议“黑盒”模型,如随机森林、gbm 等将非常有帮助。