仅处理预测集中的缺失数据

机器算法验证 回归 分类数据 交叉验证 缺失数据 预言
2022-03-24 19:20:46

我有一个回归问题,其中自变量都是因素(分类)。我一直在查看有关缺失数据的文献,到目前为止,这一切似乎都与缺失的训练数据有关。我想知道是否有处理预测集中缺失数据的标准方法。也就是说,您拥有训练所需的所有数据,但您需要能够仅使用部分数据进行预测。这一定是一个研究过的问题。

我最初的想法是根据虚拟编码变量的常见程度来使用它们的平均值。作为一个简单的例子,假设我们有一个三级因子虚拟编码为

level 1: [1 0]
level 2: [0 1]
level 3: [0 0]

说水平i发生分数fi训练数据中的时间(所以ifi=1),回归有两个系数β1β2.

那么这个因子中的缺失值可能被估计为:

β1f1+β2f2+0f3
但鉴于“默认”级别编码是跨因素共享的,我不确定在这种情况下我是否正确处理了级别 3。

1个回答

(我会让其他人解决缺失数据的估计问题。您可能希望使用其他协变量值的知识以及可能的外部信息(例如先验等)直接对观测值是未知因素的每个水平的概率进行建模。您可能可以将诸如倾向得分之类的策略用于此类事情。但是,乍一看,您的方法对我来说似乎是合理的。)

一个注意事项是,如果您按原始频率加权,我无法从您的描述中看出如果是这样,您想将这些除以N取而代之 的是获得边际概率。

你是对的,你没有正确处理第 3 级。您在问题设置中使用的编码方案称为参考级别编码要正确使用这种方法,您需要有一个拦截(即,β0),它估计了 3 级的平均值。我怀疑你确实有这样的,即使你没有列出它。在这种情况下,您只需将截距添加到最终方程中。那是:

β0f3+β1f1+β2f2
请注意,您将截距(对参考水平进行编码)乘以观测值实际上是参考水平的边际概率。