我正在使用 R boot() 函数来执行回归引导。
当 boot() 对我的数据重新采样时,可能会丢失一些系数,尤其是在具有许多情况的因子变量的情况下。
从理论上讲,您将如何处理这种情况?
在我的实现中,我用 NA 替换缺失的系数,因此在构建自举分布的统计数据时忽略它们。
作为替代方案,我考虑使用 0,但它不会作为收缩正则化将分布推向 0 吗?
在其他情况下,回归函数会崩溃,因为某些因素变量被剥离了所有级别,但只有一个级别,并且不能有一个只有一个值的预测变量。在这种情况下,我完全忽略了这个回归的系数,只返回 NA。但是我不明白是否可以仅仅因为一个预测变量无用而放弃整个回归。我应该剥离预测器吗?
总之,我想知道: - 如何处理丢失的系数,我应该使用 NAs 还是 Zeros。- 如何处理回归函数经常由于预测变量只剩下一个级别而崩溃?我应该剥离预测器吗?
谢谢