假设我有一些来自某个群体的观察结果 ——y 是二进制的,x 是实数或实数向量。
x y
1 1
1 0
nan 1
nan 0
...
4 1
我想建立一个模型来预测
假设所有案例都有并且我删除了所有案例,例如 50% 缺少的案例。
的预测模型。这可能非常有用。例如,假设我们试图预测某种疾病;任何时候有人提出不丢失,我们可以使用我们的模型。的人,我们不能说任何话,这太糟糕了,但是对于收集的子群体,我们总体上已经改善了世界。
但是,如果我们删除了缺失的案例,然后我们 (1) 决定对缺失 x 的案例使用或 2) 根据我们估计的系数对整个人口做出一些陈述,这显然是不正确的。对于 (1),我们将在与训练对象不同的人群上使用该模型。对于 (2),我们将忽略我们可能通过删除缺少的案例而引入的偏差。
我认为这是第二个原因,尤其是删除丢失的数据会受到不好的批评。但是,如果您对模型不适用于缺少 x 的情况诚实,则使用最初描述似乎是一个好主意(尽管不是的主意,这将是对整个人口 ),并且不要像(1)或(2)那样不正确。这样,删除缺失数据不会引入“偏差”,而是会限制模型的可用性?