我有一个包含许多缺失值的数据集(1000 万行,55 列)。我需要以某种方式使用其他非缺失值来预测这些值,即将它们替换为非 NaN 的值。平均值和中位数不是这里的解决方案。
我试图为此研究其他方法,但由于我有很多分类变量,它们都不起作用。我还尝试使用一种热编码将分类变量转换为整数,但我不确定这是否是我的解决方案,因为只有 1 个分类列我会得到 600 个新列。如果我对其他分类列执行相同操作,我将获得数百万个新列。其中一个分类列是 URL 字符串,每一行都不同,因此我有 1000 万个不同的 URL。
另一个分类列是描述,每一行也不同。我可能会删除 URL 列,但我不能删除描述、标题、位置等。我尝试了 PCA,但它也不适用于分类数据。我缺少分类和整数/浮点值的数据。get_dummies 方法会是解决这个问题的好方法吗?对于缺失值插补,我尝试了 KNN 和最大似然,但由于分类变量而出现错误。缺失数据是完全随机缺失的。
你对如何解决这个问题以及我应该使用哪些包有什么建议吗?