我有一个回归问题,其中自变量都是因素(分类)。我一直在查看有关缺失数据的文献,到目前为止,这一切似乎都与缺失的训练数据有关。我想知道是否有处理预测集中缺失数据的标准方法。也就是说,您拥有训练所需的所有数据,但您需要能够仅使用部分数据进行预测。这一定是一个研究过的问题。
我最初的想法是根据虚拟编码变量的常见程度来使用它们的平均值。作为一个简单的例子,假设我们有一个三级因子虚拟编码为
level 1: [1 0]
level 2: [0 1]
level 3: [0 0]
说水平发生分数训练数据中的时间(所以),回归有两个系数和.
那么这个因子中的缺失值可能被估计为:
但鉴于“默认”级别编码是跨因素共享的,我不确定在这种情况下我是否正确处理了级别 3。