我正在玩UCI Bank Marketing Dataset。因此,有一个名为的分类变量default
告诉我们客户是否“有默认信用”。该变量具有三个选项no
:yes
和unknown
。看看它的分布:
no 32588
unknown 8597
yes 3
正如你所看到的,我们yes
只遇到了 3 个案例,我的问题是一般如何处理这么小的类别?每次遇到它时,我是否应该将其从数据集中排除?或者也许我应该做一些像过采样但仅仅针对这种情况的东西?
我问是因为我担心它对分类任务的影响。据我了解,如果在分区期间所有这些yes
都落入数据集validation
或test
数据集的一部分,它将扭曲度量的结果。