平衡回归问题的数据集

数据挖掘 回归 阶级失衡
2022-02-22 16:47:03

不平衡的数据集是分类问题的一个很好的描述问题。

然而,对于回归,可能会出现类似的问题。一个例子是目标变量具有非常不规则的直方图的数据集。

示例直方图

在对此类数据拟合模型时,主要关注点将集中在值 120 附近的峰值上。但是,我想创建一个在 40 到 160 的整个区间内工作的模型。

  • 您通常会如何处理这些问题?
  • 您是否知道有关此主题的任何文献?
  • 平衡数据集是一种好方法吗?如何实现?
1个回答

首先,您绘制的直方图是边际分布的直方图。一旦您对变量进行回归,残差可能看起来非常好。线性回归是以变量 X 为条件对 Y 的估计;因此,为了确定分布是否合适,您检查假定为高斯的残差。

如果您的数据在区间之间有界,一种方法是使用 beta 回归对其进行建模。如果数据被限制为正数,假设伽马分布也可以。但是,您必须在事后检查诊断图以确保您所做的分布假设是正确的。

参见 Ferrari 的 Beta Regression、Smithson '06 的 A Better Lemon Squeezer 和 Faraway 的扩展一般线性模型。此外,对于回归模型的贝叶斯实现,您可以查看 Gelman 的书。