我陷入了回归建模问题。我有面板数据,其中因变量是概率。以下是我的数据的摘录。完整的面板涵盖了更多的国家和年份,但它是不平衡的。我能观察到的是事件的数量和试验的数量。事件概率是从这些值得出的(考虑到大量试验,这个概率的估计应该相当好)。所有自变量都是特定于县年的。
country year event_prob events trials x x_lag2 ... more variables
1 Cyprus 2008 0.03902140 11342 290661 4.60 4.13 ...
2 Cyprus 2009 0.04586650 13482 293940 4.60 4.48 ...
3 Cyprus 2010 0.05188398 15206 293077 4.60 4.60 ...
4 Cyprus 2011 0.06433411 18505 287639 5.79 4.60 ...
5 Estonia 2008 0.07872978 21686 275449 6.02 4.11 ...
6 Estonia 2009 0.09516270 33599 353069 13.18 4.91 ...
7 Estonia 2010 0.08645905 36180 418464 7.95 6.03 ...
8 Estonia 2011 0.07731997 31590 408562 5.53 13.18 ...
...
165 USA 2011 0.06100000 9192822 150702000 2.73 3.27 ...
我的目标是使用回归分析来找出哪些变量对事件概率很重要。在 R 术语中,我正在寻找一种形式为event_prob ~ x + x_lag2 + ...
.
问题如下:event_prob
必须在 0 和 1 之间,因此使用event_prob ~ x + x_lag2 + ...
可能不是最好的主意。所以我正在考虑使用event_prob
范围logit(event_prob)
从到的 logit 变换。第一个想法是使用 R 的包,即或(见下文)。这是一种合理的方法还是我违反了一些基本假设?plm
plm(logit(event_prob)~x+x_lag2,data,index=c("country","year"),model="random")
model="within"
我也在考虑使用包中的面板广义线性模型pglm
(使用 logit 链接函数),但是由于我不知道二进制事件的结果(仅知道事件和试验的总数),所以我被卡住了那里。也许有人可以帮助我如何在这里进行。
由于我有面板数据,我想计算固定效应模型和随机效应模型,然后应用 Hausman (1978) 检验来决定哪个模型更合适。
我第一次尝试建模有意义吗?我真的不确定如何正确解决这个问题。我希望对我的问题的描述足够详细。如果没有,我很乐意提供更多详细信息
在软件方面,我更喜欢 R。SAS 和 SPSS 也可以,因为我的大学有它们的许可证。我只是对他们没有太多经验。