当线性回归给出不可能的负估计时该怎么办

机器算法验证 回归 多重回归 最小二乘
2022-03-29 07:06:52

我正在使用线性回归来估计实际上总是非负的值。预测变量也是非负的。例如,回归受教育年限和年龄来预测薪水。在这种情况下,所有变量总是非负的。

由于负截距,我的模型(由 OLS 确定)导致一些负预测(当预测变量的值相对于所有值的范围较低时)。

这个话题已经在这里讨论过了,而且我也知道不鼓励在 0 处强制截距,所以看来我必须接受这个模型作为我必须使用的模型。但是,我的问题是关于评估此类模型时公认的规范和规则。这里有什么特别的规则吗?具体来说:

  • 如果我得到一个否定的估计值,我可以把它四舍五入到 0 吗?
  • 如果观察值为 100,预测值为 -300,并且我知道最小可能值为 0,那么误差是 400 还是 100?例如,在计算 ME 和 RMSE 时。

如果它与讨论相关:我使用了简单线性回归和多元线性回归。两者都会导致几个负值。


编辑:

以下是拟合样本的示例:

线性拟合

线性回归的系数为 0.0010(x) 和 -540(截距)。

以下是当我对 X 使用 log 时发生的情况:

日志

线性回归适合这里吗?

1个回答

您没有给出上下文,但您已链接到提供一种解决方案的帖子。我将假设该解决方案在这里不适用。

然后另一个解决方案是不使用线性回归(简单或多重),因为它们不能解决您遇到的问题。

不过,首先,让我们使用您的收入作为年龄和教育程度的函数。在这里,负预测值是合理的,因为您可能对新生婴儿的收入不感兴趣。但是,在那里,取 log(income) 也是合理的,除非您的数据集中的某些人没有收入。

但假设不是这样。然后,您可以使用尊重因变量界限的回归方法。其中之一是 beta 回归,它需要一个介于 0 和 1 之间的 DV - 因此您可以将 DV 缩放到 0 和 1 之间,然后使用 beta 回归。

但我真的敦促您将实际变量添加到问题中。