将模型拟合到具有许多零和右尾很少但较大的值的变量

机器算法验证 回归 预言 泊松回归 零通胀
2022-03-02 02:03:20

我想将模型拟合到如下分布的因变量(见图)。

在此处输入图像描述

分布是各个地区的人数(具有特定特征)。这意味着,没有负数;在绝大多数地区,变量为 0,但也存在频率非常低的非常大的数字(高达 80,000)。

按照 Moti Nisenson 的建议,我在这篇文章中编辑了一些图表,使分布更加清晰。如果我把所有的 0 都去掉,图表看起来是一样的,因为有很多 1、2 等。

如果我放弃所有 < 100,它看起来像这样:

在此处输入图像描述

如果我放弃所有 < 1000,它看起来像这样:

在此处输入图像描述

如果我放弃所有 < 5000 它看起来像这样:

在此处输入图像描述

我的目标是找到一个能够很好地预测零点的回归,更重要的是,找到分布右尾的极值。

我知道普通最小二乘法在这里并不理想。我研究了泊松回归,这似乎更适合我的目的。

有没有更合适的回归模型?还有哪些选项可能有帮助?

附加编辑:这些是摘要统计信息。方差比平均值高很多(很多),根据这个来源,这表明泊松是不合适的。 在此处输入图像描述

附加编辑 2:这是按要求在日志中分布的变量。在此处输入图像描述

1个回答

如果 Count 0 的计数很小,那么您可以将其作为分类问题处理。否则,您可以先根据目标变量将数据分为两组:

1- 计数 ==0

2 计数 0

您可以使用分类方法(例如逻辑回归)对上述每个结果进行建模。然后在 Count 0 的组中,您可以拟合回归模型。

为什么这会有所帮助:

  • 平衡数据:如果您使用最小二乘拟合回归模型,它将严重偏向 0,因为您的大部分数据位于 count==0 处。当您将数据分成两组时,所有具有 Count 0 的数据都会被放入一个 bin 中,它们对 Count 0 的权重会更大。

  • 基于分布 count==0 似乎是与其他计数完全不同的情况。因此,如果您通过首先分离 count==0 的数据来区别对待,它会有所帮助。