如何处理具有太多级别的分类预测变量?

机器算法验证 回归 分类数据 造型 多类
2022-01-18 13:50:49

我认为如果我们直接将虚拟变量用于具有数百个级别的分类预测器,这可能是一个问题。

我从“统计学习要素”(第 329 页)一书中找到了一种解决方案。该解决方案在分类树部分中提到。具体来说,该解决方案通过每个级别在一个类别中的出现次数对分类预测变量的级别进行排序,然后将预测变量视为有序预测变量。

我想知道对于分类树以外的模型,例如线性回归,处理具有太多级别的分类预测变量的正确方法是什么。

我发现一个旧帖子问类似的问题,但没有发布答案:

2个回答

我看不到按频率排序级别会创建一个序数变量。

rms通过使用惩罚性最大似然估计(例如,用于二次(岭)L2 惩罚的 R 包olslrm函数)或使用随机效应,收缩是处理这个问题所必需的。您可以使用惩罚性最大似然估计或在混合效应建模上下文中使用 BLUPS 轻松获得各个级别的预测。

如果我了解您的问题(以及您链接的旧帖子)-您是说某些级别的数据很少,无法准确估计效果。

所以要么通过“手工”减少级别(为所有数据不足的级别创建一个新的“其他”级别),或者使用 L2/L1 正则化