我正在研究一个二进制分类问题,其中数据集略微不平衡(30% 0 类 | 70% 1 类)。
我的大部分特征都是分类的,有大量的类别。例如:其中一个有 310 个类别,但前 10 个最常出现的变量占训练和测试数据的约 50%。我正在考虑保留这些经常出现的前 k 个值并将所有其他值编码为另一个类别“其他”。
这样做可以吗?
此外,什么样的分类器最适合这样的任务?我在看随机森林。然而,由于嘈杂的数据(太多的类别,太多的特征)我的模型不能很好地概括(低召回率和精度)。
感谢您的时间。
PS:数据不是时间序列