我想将模型拟合到如下分布的因变量(见图)。
分布是各个地区的人数(具有特定特征)。这意味着,没有负数;在绝大多数地区,变量为 0,但也存在频率非常低的非常大的数字(高达 80,000)。
按照 Moti Nisenson 的建议,我在这篇文章中编辑了一些图表,使分布更加清晰。如果我把所有的 0 都去掉,图表看起来是一样的,因为有很多 1、2 等。
如果我放弃所有 < 100,它看起来像这样:
如果我放弃所有 < 1000,它看起来像这样:
如果我放弃所有 < 5000 它看起来像这样:
我的目标是找到一个能够很好地预测零点的回归,更重要的是,找到分布右尾的极值。
我知道普通最小二乘法在这里并不理想。我研究了泊松回归,这似乎更适合我的目的。
有没有更合适的回归模型?还有哪些选项可能有帮助?
附加编辑:这些是摘要统计信息。方差比平均值高很多(很多),根据这个来源,这表明泊松是不合适的。