如何处理逻辑回归中的缺失数据?

机器算法验证 回归 物流 缺失数据 审查
2022-04-03 18:37:21

我正在研究拍卖中的最优出价,并且正在使用逻辑回归来预测在给定一组解释变量(例如我出价、竞争出价数量等)的情况下赢得拍卖的概率。

我想使用的一个解释变量是支付的第二高价格。然而,根据拍卖的设计,我只在我是最高出价者时(即我赢得拍卖时)观察到第二高的价格。

这个缺失的数据是一个主要问题,因为我的数据集表明只有约 20% 的时间中标,因此我不知道 80% 的时间支付的第二高价格。然而直观地说,我不想放弃这个变量,因为在我看来,知道第二高的出价对于确定我中标的机会非常有价值。

因此,是否有任何标准方法来处理这种逻辑回归的缺失数据?

2个回答

恐怕你不能指望找到一些“罐头”解决你的问题。大多数处理缺失数据的方法都假设“随机缺失”甚至“完全随机缺失”(您可以搜索这些术语!)。您的问题似乎肯定是信息缺失的问题。然后,您需要对缺失机制进行建模,并可能在给定一些协变量(可能包括中标)的情况下将“第二高出价”建模为响应。

从那里您可以尝试构建自定义模型。你可以谷歌搜索“信息缺失”以获得一些想法。

@Kjetil 给出了一个很好的答案。

如果您有足够的拍卖,一种可能的简单替代方案是运行两个模型:一个具有最高和第二高的数据,另一个具有最高的数据。

这种方法的一个优点是每个模型都将比同时包含两者的完整模型简单得多。但一个缺点是,除非你真的拥有它,否则你根本无法使用第二高的出价。