如何处理测试数据集中看不见的类特征

数据挖掘 机器学习 神经网络 scikit-学习 数据集
2022-02-26 09:47:46
feature   Definition    Key
survival    Survival    0 = No, 1 = Yes
pclass   Ticket class   1 = 1st, 2 = 2nd, 3 = 3rd
sex       Sex           M/F
Age     Age in years    

下面给出的功能说明

pclass: A proxy for socio-economic status (SES)
1st = Upper
2nd = Middle
3rd = Lower

age: Age is fractional if less than 1. If the age is estimated, is it in the form of xx.5

假设我有与上述相同的数据集。

如何处理我可以为类提供看不见的价值的情况。例如:在我们的数据集中,pclass 有 3 个不同的值。但是如何处理 pclass 值可能有第 4 类说“精英”的情况,它没有出现在训练数据集中但出现在测试数据集中

2个回答

取决于型号。我会说大多数时候新级别被删除或映射到 NA 级别。如果可能的话,你应该尝试为你的训练集做一个分层样本,以确保你得到你关心的每个级别。

我认为拥有新的类值不是问题,除非您决定将类值转换为特征。如果您不想遇到错误,请在测试阶段放弃新功能,或者确保它在训练阶段出现。