为二进制数据创建模糊值

机器算法验证 二进制数据 数据插补 模糊
2022-04-02 08:38:44

我正在做一个逻辑回归,其中我的因变量是一个人是否拥有特定产品。

模型中的变量中有一个婚姻状况的指标,1 表示已婚,0 表示未婚。例如,这是直接从客户填写的应用程序中获取的可靠数据。在许多情况下,数据丢失了(可能这个人从未填写过申请表),但还有第二个数据源,它有点准确,但并不完全准确。填充缺失值是否有意义——不是用 0 或 1,而是介于两者之间?就像他们可能已经结婚一样,根据第二个数据源,我给他们 0.8,如果他们可能没有结婚,我给他们 0.2。

1个回答

我从未见过这样做过,我怀疑其他人也有过。人们通常会在发布内容后的几个小时内在该网站上获得明智的答案。一天过去了,一点都不开心。

我的想法是这样的:如果你想告诉模型某些值比其他值更值得信赖,请使用权重。如果您在怀疑数据准确性的情况下降低值的权重,则该模型基本上会在该点上接受更差的拟合——这就是您想要的。

示例:假设您有一组非常“已婚”的协变量,用于在狡猾的数据集中编码为“未婚”的人。如果没有权重,拟合算法可能会扭曲参数估计以获得某种拟合。有了权重,算法就不需要那么努力了。实际上,当您不信任数据时,它可以让您拥有更大的残差。

如果你想用概率替换数据的第一个想法,我会迭代:估计某人结婚与否的概率,然后用我的最佳猜测拟合模型,然后返回并调整估计值。这是一种 EM 方法。所以,我不会用 0.8 和 0.2 替换 0 和 1。我会根据概率小于或大于 0.5 使用 1 和 0 - 但随后我会根据这些点的不适合性返回并调整概率。

如果您查看逻辑回归模型中发生的情况,所涉及的数学实际上预计数据将是 0 或 1。我想你想坚持下去。我的建议归结为使用权重或从其余数据中估计婚姻状况。