预测缺失的特征

数据挖掘 机器学习 神经网络 缺失数据
2021-09-30 01:01:44

我有“数百万”个项目,每个项目都有 N 个二进制特征。当特征为“0”时,可能只是缺少信息。因此,鉴于当前观察到的 1 的数据,我希望“0”特征为“1”的概率。

我认为这可以是一个所有特征都作为输入和输出相同的神经网络。但是我不知道培训会如何进行。我没有基本事实。

我需要一些帮助来表达我的问题,希望不要重新发明轮子。这是 ML 中的经典问题吗?可以应用什么方法?

1个回答

一个简单的方法可能如下:假设i{0,1}d是您要预测的向量0条目可能是1jJ其余的特征向量。采取k最近的邻居,在一些合适的距离下(JaccardHammingManhattan distance)。对于每个0进入概率可以是百分比k最近的邻居有1在相应的条目中。

这个问题已经在协同过滤社区中得到了广泛的研究。最著名的例子是Netflix 奖这篇博客文章很好地解释了这种二进制数据的方法。

另一种更复杂的方法是矩阵完成,特别是检查这个参考如果您喜欢深度学习,请查看