缺少许多二元特征时的二元分类

机器算法验证 分类 缺失数据 半监督学习
2022-03-22 10:59:27

我正在研究一个二进制分类问题,总共有大约 1000 个二进制特征。问题是对于每个数据点,我只知道一小部分特征(大约 10-50)的值,而这个子集中的特征几乎是随机的。

有什么好的方法来处理缺少功能的问题?是否有一种特定的分类算法可以很好地处理缺失的特征?(朴素贝叶斯应该可以工作,但还有别的吗?)我猜我不想做某种变量插补,因为我有很多缺失的特征。

2个回答

假设数据被认为是完全随机丢失的(参见@whuber 的评论),尝试使用以下论文中描述的集成学习技术可能会很有趣:

波利卡,R. 等人。(2010)。 Learn++.MF:缺失特征问题的随机子空间方法模式识别43(11),3817-3832。

一般的想法是在组成数据集的变量子集上训练多个分类器(如在随机森林中),但只使用用非缺失特征训练的分类器来构建分类规则。请务必检查作者所说的“分布式冗余”假设(上面链接的预印本中的第 3 页),即您的功能集中必须有一些同样平衡的冗余。

如果子集中的特征是随机的,您仍然可以估算值。但是,如果你有那么多缺失的数据,我会三思而后行,看看你是否真的有足够的有效数据来进行任何类型的分析。

多重插补FAQ页面---->

http://www.stat.psu.edu/~jls/mifaq.html