哪个模型用于具有来自 [0,1] 的因变量的面板数据?

机器算法验证 r 广义线性模型 面板数据 随机效应模型 固定效应模型
2022-03-29 13:45:00

我陷入了回归建模问题。我有面板数据,其中因变量是概率。以下是我的数据的摘录。完整的面板涵盖了更多的国家和年份,但它是不平衡的。我能观察到的是事件的数量和试验的数量。事件概率是从这些值得出的(考虑到大量试验,这个概率的估计应该相当好)。所有自变量都是特定于县年的。

     country  year  event_prob  events trials    x    x_lag2 ... more variables
  1   Cyprus  2008  0.03902140  11342  290661   4.60   4.13  ...
  2   Cyprus  2009  0.04586650  13482  293940   4.60   4.48  ...
  3   Cyprus  2010  0.05188398  15206  293077   4.60   4.60  ...
  4   Cyprus  2011  0.06433411  18505  287639   5.79   4.60  ...
  5  Estonia  2008  0.07872978  21686  275449   6.02   4.11  ...
  6  Estonia  2009  0.09516270  33599  353069  13.18   4.91  ...
  7  Estonia  2010  0.08645905  36180  418464   7.95   6.03  ...
  8  Estonia  2011  0.07731997  31590  408562   5.53  13.18  ...
  ...
165  USA  2011  0.06100000  9192822  150702000   2.73  3.27  ...

我的目标是使用回归分析来找出哪些变量对事件概率很重要。在 R 术语中,我正在寻找一种形式为event_prob ~ x + x_lag2 + ....

问题如下:event_prob必须在 0 和 1 之间,因此使用event_prob ~ x + x_lag2 + ...可能不是最好的主意。所以我正在考虑使用event_prob范围logit(event_prob)的 logit 变换。第一个想法是使用 R 的包,即(见下文)。这是一种合理的方法还是我违反了一些基本假设?plmplm(logit(event_prob)~x+x_lag2,data,index=c("country","year"),model="random")model="within"

我也在考虑使用包中的面板广义线性模型pglm(使用 logit 链接函数),但是由于我不知道二进制事件的结果(仅知道事件和试验的总数),所以我被卡住了那里。也许有人可以帮助我如何在这里进行。

由于我有面板数据,我想计算固定效应模型和随机效应模型,然后应用 Hausman (1978) 检验来决定哪个模型更合适。

我第一次尝试建模有意义吗?我真的不确定如何正确解决这个问题。我希望对我的问题的描述足够详细。如果没有,我很乐意提供更多详细信息

在软件方面,我更喜欢 R。SAS 和 SPSS 也可以,因为我的大学有它们的许可证。我只是对他们没有太多经验。

1个回答

由于附带参数问题(对于固定),解决对部分响应变量(或一般非线性模型)具有固定效应的面板模型中未观察到的异质性并非易事,参见例如Lancaster (2000)this在 CrossValidated 上回答如果很小(并且是固定的),则固定效应是不一致的(并且随机效应可能强烈依赖于分布假设)。因此,您不能仅通过 Hausman 检验比较随机效应和固定效应模型。NTT

有关分数响应变量的面板模型的建议可以在Papke 和 Wooldridge (2008)此处找到