朴素贝叶斯分类器如何处理测试中的缺失数据?

数据挖掘 朴素贝叶斯分类器 缺失数据
2021-10-14 06:34:08

假设已经训练了一个分类器(没有丢失训练数据),但是根据不包括所有特征的观察请求了预测。我们如何处理这个缺失的功能?

2个回答

在评估(测试)阶段,当数据点xn拥有d索引处缺少特征M={m1,...,md}, 对应项P(xi|Ck),iM只是从分类器中删除。也就是分类器

C(xn)=argmax k{1,..,K}P(Ck)iP(xi=xn,i|Ck)
被替换为
C(xn)=argmax k{1,..,K}P(Ck)i:iMP(xi=xn,i|Ck)

在哪里i迭代特征,xn,i表示i-数据点的特征n, 并且有K共上课。

在预处理数据时,您倾向于避免这些情况。您估算丢失的数据。在生产方面,像 H2O 这样的框架处理得非常优雅。如果您的意思是尺寸不匹配,那么 H2O 仍然可以处理它。

H2O 缺失值