这个问题是关于在回归中处理自变量中的零点。
特别是,零不是丢失数据或真零,而是由于量化而出现的。作为一个具体的例子,假设观察是城市,变量是基于样本的某个类别的人数(或比例)。如果特定城市的样本很小,则该类别中的人数可能为零,即使该城市人口中的真实人数不为零。
在这种情况下,如果变量重尾,有哪些可能的方法来处理零?通常我会进行对数转换,但是当存在零时我不能这样做,并且因为许多观察结果都是零,排除它们会引入很大的偏差。
我正在考虑的一些事情:其他转换,用分数的贝叶斯估计替换变量,从回归切换到方差分析,以人作为观察值,将城市作为分类变量。这些是有效的方法吗?我有什么遗漏吗?优缺点都有什么?