我正在努力寻找一种方法来减少名义或有序数据中的类别数量。
例如,假设我想在具有许多名义和有序因素的数据集上构建回归模型。虽然我对这一步没有任何问题,但我经常遇到这样的情况,即名义特征在训练集中没有观察到,但随后存在于验证数据集中。当模型呈现(到目前为止)未见过的情况时,这自然会导致错误。我想组合类别的另一种情况是当类别太多而观察值很少时。
所以我的问题是:
- 虽然我意识到最好根据它们所代表的先前真实世界背景信息组合许多名义(和序数)类别,但是否有可用的系统方法(
R
最好是包)? - 您会就截止阈值等提出哪些指导方针和建议?
- 文学中最流行的解决方案是什么?
- 除了将小的名义类别组合到一个新的“其他”类别之外,还有其他策略吗?
如果您还有其他建议,请随时加入。