线性回归:截距不显着

机器算法验证 回归
2022-03-26 13:38:35

我建立了一个多元线性回归模型来预测电影票房的收入:变量是收入,而变量是两个:(每天的推文数量)和(这些推文的内涵)。YXActivitysentiment

问题是截距并不重要。我想到了一个可能的解释:实际上的截距是当变量取值为 0但是由于社交网络的非常强大的发展,几乎不可能没有关于一部刚刚上映的电影的推文(然后是一波活动),我认为拦截的重要性可以忽略不计,因为假设值在现实中没有任何意义(考虑到今天的市场,0 的推文永远不会满足)。这样,我认为截距只是计算线的常数,而不必担心其重要性(因为在某些情况下会取负值,这对于收入来说是不可能的)。YX

解释可能是正确的?

2个回答

截距不显着(与零不同)并不一定是一个问题,实际上这可能在科学上或实际上是您所期望的。但可以说的还有很多。

任何包含一个的线性回归的截距估计值将由所有数据确定,特别是包括那些离它最远的数据!因此,估计不关注任何实质上有意义或可解释的(物理上的、生物学上的、经济上的,等等)。在许多项目中,在拟合位置的原点或附近发生的情况可能至少部分是由非常大的正值(响应或预测变量)施加的杠杆作用的副作用。(原则上,对于大的负值,可以观察到完全相同的杠杆效应,但这在实践中并不常见。)通过查看 2 或 3 维散点图并想象拟合线或平面需要如何调整,可以获得直觉。移动以满足最小二乘准则(除非,自然地,

然而,考虑截距估计是否与响应或结果变量的已知或预期行为一致,因为它随预测变量而变化,这通常是一个好主意。当预测变量的值接近零时,这一点尤其重要,但当没有接近其原点的值时,这一点就不太重要了,当截距实际上只是拟合线或平面远离数据质量的外推时。这样做时,绘制图表永远不会受到伤害,并且对于了解正在发生的事情非常宝贵。(在我的经验中,遇到已经拟合回归但没有绘制数据的研究人员仍然非常常见。这似乎是最常见的,

此处的票房收入示例是许多响应变量的典型代表,这些变量不能为负数,而在实践中通常为正数。对可能产生负截距的担忧可能与更深层次的担忧有关。对于此类响应,线性回归通常不是一个好主意,因为原则上它将预测某些预测变量值的负值。这里使用具有对数链接的广义线性模型通常要好得多,并且可以以与基础科学一致的方式捕获数据中的曲率和异方差性。y=Xb

对完整性表示赞同,还请注意,许多人更喜欢从线性回归中省略截距,并强制拟合曲面通过原点和/或使用其他功能形式(幂律或幂函数)来做等效的事情。这两种策略都有成本和收益。

我想你理解正确:)

截距并不重要,因为没有足够的统计证据表明它不同于零。正如你所说,一部没有人提及的电影不会赚钱似乎是合理的。