标准化面板数据中的计数变量过度分散 - R 或 Stata

机器算法验证 回归 面板数据 计数数据 标准化 负二项分布
2022-04-04 17:08:18

我正在运行一个回归,其中因(响应)变量是一个高度分散(略微零膨胀)的计数,而解释性(独立或预测)变量是连续的、计数的和二进制的。

我在 SO 上阅读了一些关于这个主题的有趣贡献(这里这里这里以及他们引用的文章/博客),但它们通常显式或隐式地处理连续的响应变量。所以我有几个问题。任何帮助和(部分)答案将不胜感激。

  1. 鉴于响应变量的过度分散(方差>>均值)和随时间变化的均值,“改变”响应变量的最佳方法是什么?
  2. @ Gung在他/她的一项贡献中指出,当您计划将预测变量与其他变量交互或在二次项的情况下,居中或缩放预测变量特别有用。这将减少共线性。现在在我的数据中,我发现以均值为中心的变量与其二次项之间的相关性确实较小(从 0.88 到 0.80),但是不同的以均值为中心的变量 x1_centered 和 x2_centered 之间的相关性实际上更大。因此,我不确定哪种效果更糟...
  3. 通常建议(例如 Angrist & Pischke,2009 - 大多数无害的计量经济学)将面板数据中的响应变量均值居中,因为这将解释固定效应。但这提出了两个问题:
    1. 您在面板数据中使用哪个意思?使用整个样本的平均值意味着在它展开之前就知道未来。使用包含每年回归的滞后变量的滚动平均值可能有效,但我从未在论文中看到过。
    2. 以均值为中心的计数变量的解释是什么。就我而言,我查看专利引用,以均值为中心意味着我突然有了负值
  4. 最后,通过对响应计数变量进行均值中心化(即,如果有充分的理由这样做,我必须摆脱负二项式回归,因为响应变量的性质从正整数变为正整数和负非整数.因此,我认为@MansT关于最小二乘估计量的观点(见这里)是无效的(我并不是暗示@MansT认为它们是有效的!!).显然,如果我必须改变回归(来自glm , familiy = quasibinomial()) 到别的东西,这将影响所有的贝塔。

好的,我知道这是一个很长的问题,所以我只能希望你们中的一些人可以为其中的一部分做出贡献。

0个回答
没有发现任何回复~