数据挖掘 - 处理分类特征中的缺失数据 - 吾爱随笔录

我有一个数据集，其中一个分类列具有大量缺失值。此列的有趣之处在于它仅具有“另一个”列中特定类别的值。

例如：

column 1                        column2
========================================
Google                             -
Google                             -
Google                             -
Google                             -
Facebook                        Image
Facebook                        Video
Facebook                        Image

我感兴趣的列仅具有另一个列中存在的一个类别（Facebook）的值。因此，google 的缺失值不能用平均值估算，不能预测，也不能忽略这些行。

在这种情况下，将缺失值“-”视为单热编码中的单独类别是否明智？或者这会严重影响我的机器学习模型吗？

column1 column2_Image column2_Video 0 Google 0 0 1 Google 0 0 2 Google 0 0 3 Google 0 0 4 Facebook 1 0 5 Facebook 0 1 6 Facebook 1 0