在线性回归中使用百分比结果有什么问题?

机器算法验证 回归 比率 百分比
2022-03-09 02:23:27

我有一项研究,其中许多结果都用百分比表示,我正在使用多元线性回归来评估一些分类变量对这些结果的影响。

我想知道,由于线性回归假设结果是连续分布,将这种模型应用于百分比(限制在 0 到 100 之间)是否存在方法问题?

3个回答

我将解决与离散或连续可能性相关的问题:

  1. 均值描述有问题

    你有一个有限的反应。但是您要拟合的模型没有界限,因此可以直接突破界限;您的某些拟合值可能是不可能的,而预测值最终必须是。

    真正的关系最终必须在接近边界时变得比中间更平坦,因此预计它会以某种方式弯曲。

  2. 方差描述有问题

    随着均值接近界限,在其他条件相同的情况下,方差也将趋于减小。平均值和界限之间的空间较小,因此整体可变性趋于减小(否则平均值将趋于远离界限,因为点在不靠近界限的一侧平均更远。

(实际上,如果某个邻域中的所有人口值都恰好在界限内,那么那里的方差将为零。)

处理这种界限的模型应该考虑这种影响。

如果比例用于计数变量,则比例分布的常见模型是二项式 GLM。平均比例和预测变量的关系形式有多种选择,但最常见的一种是逻辑 GLM(常用的其他几种选择)。

如果比例是连续的(如牛奶中奶油的百分比),则有多种选择。Beta 回归似乎是一种相当普遍的选择。同样,它可能使用均值和预测变量之间的逻辑关系,或者可能使用其他一些函数形式。

另请参阅回归以了解 0 和 1 之间的结果(比率或分数)

这与结果介于 0 和 1 之间的情况完全相同,并且这种情况通常使用逻辑回归等广义线性模型 (GLM) 来处理。互联网上有很多关于逻辑回归(和其他 GLM)的优秀入门书,而且 Agresti 也有一本关于该主题的著名书籍。

Beta 回归是一种可行但更复杂的替代方案。逻辑回归很可能适用于您的应用程序,并且通常使用大多数统计软件更容易实现。

为什么不使用普通的最小二乘回归?实际上人们这样做,有时以“线性概率模型”(LPM)的名义。LPM“不好”的最明显原因是没有简单的方法可以将结果限制在某个范围内,并且您可以获得高于 1(或 100% 或任何其他有限上限)和低于 0(或其他一些下限)。出于同样的原因,接近上限的预测往往系统性地过高,而接近下限的预测往往过低。线性回归的数学基础明确假设不存在这样的趋势。通常没有很好的理由将 LPM 拟合到逻辑回归。

顺便说一句,事实证明,包括 LPM 在内的所有 OLS 回归模型都可以定义为一种特殊的 GLM,在这种情况下,LPM 与逻辑回归有关。

可能值得研究 beta 回归(我知道有一个 R 包),它似乎非常适合此类问题。

http://www.jstatsoft.org/v34/i02/paper