我有一个包含 8000 个集群和 400 万个观测值的数据集。不幸的是,我的统计软件 Stata 在使用其面板数据函数进行逻辑回归时运行相当缓慢:xtlogit
即使使用 10% 的子样本。
但是,当使用非面板logit
功能时,结果会更快出现。因此,我可能会受益于使用logit
修改后的数据来解释固定效应。
我相信这个程序被称为“Mundlak 固定效应程序”(Mundlak, Y. 1978. Pooling of Time-Series and Cross-Section Data. Econometrica, 46(1), 69-85。)
我在Antonakis, J.、Bendahan, S.、Jacquart, P. 和 Lalive, R. (2010)的论文中找到了对该过程的直观解释。关于提出因果主张:审查和建议。领导季刊,21(6)。1086-1120。我引用:
解决遗漏固定效应问题并仍包含第 2 级变量的一种方法是在估计模型中包含所有第 1 级协变量的聚类均值(Mundlak,1978 年)。聚类均值可以作为回归量包含在内,也可以从级别 1 协变量中减去(即聚类均值居中)。集群均值在集群内是不变的(并且在集群之间有所不同),并且允许对 1 级参数进行一致的估计,就像包含了固定效应一样(参见 Rabe-Hesketh & Skrondal,2008)。
因此,聚类均值居中对于解决我的计算问题似乎是理想且实用的。然而,这些论文似乎面向线性回归(OLS)。
这种聚类均值居中方法是否也适用于“复制”固定效应二元逻辑回归?
应该得出相同答案的一个更具技术性的问题是:当数据集 B 是数据集 A 的聚类均值中心版本时,数据集 A 是否xtlogit depvar indepvars, fe
等于数据集 B?logit depvar indepvars
我在这个聚类均值中心中发现的另一个困难是如何处理假人。因为虚拟变量是 0 或 1,它们在随机和固定效应回归中是否相同?他们不应该“居中”吗?