我有一个缺失值的数据集,我想使用机器学习方法来填充。更详细地说,有 个人,最多提供 10 个属性,全部为数字。事实是,没有任何个人可以提供所有属性。第一行(每行包含给定个人的数据)看起来如下
一般可以采用哪些方法?
我在分类器和随机森林方面有一些基本经验。模数这不是分类问题的明显区别,我最挣扎的是相同的变量(在例如 -th 列)既是输入又是输出。说我想预测值在上面的数据集中。在这种情况下,第三列中的所有值都可以用作输入,当然排除在外 本身,这将是一个输出。
这似乎与给定一组其他属性(例如,根据教育、工作部门、资历等预测收入)的更传统的预测属性设置不同。在这种情况下,有时收入是要预测的,有时是用来预测另一个变量的。我知道给定向量的方法, 可以逼近一个函数并预测响应和
在我描述的场景中,它看起来像一些隐式函数是要找到的,所有变量的函数(上面数据集中的列)
什么方法可以处理这方面的问题?我知道这个问题可能太笼统了,但我找不到太多,可以做一个起点。对于我的进一步阅读,我已经对一些提示感到满意,但是任何更多的内容将不胜感激,谢谢。