如何解释残差的线性趋势?
数据挖掘
统计数据
线性回归
2022-03-07 22:50:36
2个回答
当我在上图中正确地看到它时,您的数据中有一些“聚集”,这意味着有许多公司的员工人数相同(或非常相似)。由于您似乎只使用一个自变量(右侧)运行回归,因此这种聚束将在残差中可见。
你的模型是:
现在说和中使用“捆绑”,您将得到类似的结果:
y x y_hat u_hat
--------------------------
5 10 2 3
5 20 3 2
5 30 4 1
5 40 5 0
因此,鉴于数据中存在“聚集”,模型的线性性质将反映在残差中。
请注意,使用对数对数方法(完全可以)将改变估计系数的自然解释。在对数对数情况下,您会将结果解释为的 1% 变化将与 % 变化相关联”(所有其他条件相同)。
由于员工数量是有限的(没有负数员工 -> “计数数据”),因此泊松回归之类的东西可能值得一试。
总体而言,您的模型可能未指定。如果可以,请在模型中包含额外变量,以便更好地反映数据生成过程。见本书第 114 页。
您的整个建模框架效率低下,因为大部分观察结果集中在一小部分范围内。您将从切换到 log(Profit) 和 log(Number of Employees) 中受益。然后,您看到的效果将不那么明显。那么小公司的拟合分布就不会受到大公司长尾的影响。
目前,您根本不适合小公司。从形式上讲,大公司目前正在充当高杠杆点。
切换到对数是经济学、金融学等领域众所周知的技巧。

