机器算法验证 - 如何在引导回归时处理缺失系数 - 吾爱随笔录

我正在使用 R boot() 函数来执行回归引导。

当 boot() 对我的数据重新采样时，可能会丢失一些系数，尤其是在具有许多情况的因子变量的情况下。

从理论上讲，您将如何处理这种情况？

在我的实现中，我用 NA 替换缺失的系数，因此在构建自举分布的统计数据时忽略它们。

作为替代方案，我考虑使用 0，但它不会作为收缩正则化将分布推向 0 吗？

在其他情况下，回归函数会崩溃，因为某些因素变量被剥离了所有级别，但只有一个级别，并且不能有一个只有一个值的预测变量。在这种情况下，我完全忽略了这个回归的系数，只返回 NA。但是我不明白是否可以仅仅因为一个预测变量无用而放弃整个回归。我应该剥离预测器吗？

总之，我想知道： - 如何处理丢失的系数，我应该使用 NAs 还是 Zeros。- 如何处理回归函数经常由于预测变量只剩下一个级别而崩溃？我应该剥离预测器吗？

谢谢