回归:量化的重尾自变量中的零

机器算法验证 回归 多重回归 数据转换 重尾
2022-04-04 05:03:47

这个问题是关于在回归中处理自变量中的零点。

特别是,零不是丢失数据或真零,而是由于量化而出现的。作为一个具体的例子,假设观察是城市,变量是基于样本的某个类别的人数(或比例)。如果特定城市的样本很小,则该类别中的人数可能为零,即使该城市人口中的真实人数不为零。

在这种情况下,如果变量重尾,有哪些可能的方法来处理零?通常我会进行对数转换,但是当存在零时我不能这样做,并且因为许多观察结果都是零,排除它们会引入很大的偏差。

我正在考虑的一些事情:其他转换,用分数的贝叶斯估计替换变量,从回归切换到方差分析,以人作为观察值,将城市作为分类变量。这些是有效的方法吗?我有什么遗漏吗?优缺点都有什么?

2个回答

对于您所依赖的变量(例如预测变量),没有进行分布假设。城市的分类变量单元格的频率为零应该不是问题。如果您认为所有城市的斜率不连续性为零,您可以使用至少两个变量对该变量(假设它被编码为分数)进行建模:指示变量表示非零,实际值允许零后线性效应。也可以添加非线性效应。

你在正确的轨道上。您可以进行对数常数转换,在每个观察值中添加一个常数,然后对其进行对数转换。确定常数应该是合理的,但 Rob Hybdman 在他的博客 ( https://robjhyndman.com/hyndsight/transformations/ ) 上给出了一个建议,作为最小非零值的一半。在解释系数时,请务必考虑此常数。