OLS 回归中的二次效应

机器算法验证 回归 最小二乘
2022-04-13 20:20:34

我目前正在尝试使用在线产品评论的数据进行 OLS 回归,我有两个问题:

  1. 我是否必须同时使用模型中的线性和二次效应,还是只在模型中保留平方变量也可以?我读到我必须同时使用两者,但我真的不明白为什么。那么为什么会这样呢?

  2. 我正在以在线产品评论的有用性得分作为因变量和评论的星级评分(1 到 5 之间的整数)作为自变量进行回归。我想加入一个平方效应,因为我假设 1 星和 5 星评级比中等评论(例如 3 星)更有帮助。当我只是对星级评分进行平方时,我得到 0、1、4、9 或 25 作为平方变量的可能值。然而,对我来说,首先从评分中减去 3,然后对变量进行平方会更有意义,因为这更好地反映了评分越极端,其有用性得分越高的假设。现在,我得到 4、1、0、1 或 4 作为平方变量的可能值。这样做有意义吗?

感谢您的回答!

2个回答

您不必使用线性项来使用二次项,但这通常是个好主意。我不会使用它的唯一情况是你的理论告诉你你有一个二次过程。例如,如果你以某种方式测量动能作为速度的函数,那么理论上没有线性项:

e=mv22

当不需要线性项时,这些情况很少见。否则,最好保留它们。如果您没有可靠的理论,请保留它们。

根据我的经验,我会说是的,在拟合多项式趋势时,您总是会针对较低级别的项进行调整。这是我遇到的大多数生物统计学教科书中提倡的方法。这样做的原因是保证条款具有正确的解释。例如,如果在拟合二次效应时省略了线性(一阶)项,则不能保证系数的解释是二次趋势曲线的斜率。您正在限制拟合,以使通过原点的拟合斜率为 0。但是在地球上,我们何时如此确信会出现这种情况?通过单个单元对测量进行偏置或偏移的小测量校准可能会灾难性地衰减二次斜率。相对于我们估计线性项所花费的少量力量,我主张始终使用它。

关于您的第二点,这更加支持包括线性项。我同意将值集中在 3 上很好,因为它通过对称性给 0 和 5 星评级提供了相同的影响(但是某个评级更“有用”的假设取决于您的估计。您可能会估计二次趋势3 星表示温和的评论是有帮助的……这就是对统计数据不可知论的关键)。