我有一个数据集,其中一个分类列具有大量缺失值。此列的有趣之处在于它仅具有“另一个”列中特定类别的值。
例如:
column 1 column2
========================================
Google -
Google -
Google -
Google -
Facebook Image
Facebook Video
Facebook Image
我感兴趣的列仅具有另一个列中存在的一个类别(Facebook)的值。因此,google 的缺失值不能用平均值估算,不能预测,也不能忽略这些行。
在这种情况下,将缺失值“-”视为单热编码中的单独类别是否明智?或者这会严重影响我的机器学习模型吗?