如何解释残差的线性趋势?

数据挖掘 统计数据 线性回归
2022-03-07 22:50:36

我正在尝试比较同一行业的公司,看看利润和员工人数如何相关。我的线性回归看起来像这样:

在此处输入图像描述

鉴于数据集的性质,该模型对低利润办公室的描述优于对高利润办公室的描述。这是可以理解的,因为利润丰厚的办公室的样本较少,而利润较低的办公室的样本却很多。

但是,当我检查残差时,我会得到如下信息:

在此处输入图像描述 这些图表显示了利润较低的办公室的线性模式。我不确定如何解释这些趋势。

问题: 残差的线性趋势表明什么?如何调整模型以处理它们?

2个回答

当我在上图中正确地看到它时,您的数据中有一些“聚集”,这意味着有许多公司的员工人数相同(或非常相似)。由于您似乎只使用一个自变量(右侧)运行回归,因此这种聚束将在残差中可见。

你的模型是:

yi=β0+β1xi+ui

现在说中使用“捆绑”,您将得到类似的结果:β0=1β1=0.1y

y     x      y_hat  u_hat
--------------------------
5     10     2      3
5     20     3      2
5     30     4      1
5     40     5      0

因此,鉴于数据中存在“聚集”,模型的线性性质将反映在残差中。

请注意,使用对数对数方法(完全可以)将改变估计系数的自然解释在对数对数情况下,您会将结果解释为的 1% 变化将与 % 变化相关联xβ1y(所有其他条件相同)。

由于员工数量是有限的(没有负数员工 -> “计数数据”),因此泊松回归之类的东西可能值得一试。

总体而言,您的模型可能未指定。如果可以,请在模型中包含额外变量,以便更好地反映数据生成过程。本书第 114 页x

您的整个建模框架效率低下,因为大部分观察结果集中在一小部分范围内。您将从切换到 log(Profit) 和 log(Number of Employees) 中受益。然后,您看到的效果将不那么明显。那么小公司的拟合分布就不会受到大公司长尾的影响。

目前,您根本不适合小公司。从形式上讲,大公司目前正在充当高杠杆点

切换到对数是经济学、金融学等领域众所周知的技巧。