Mundlak 固定效应程序是否适用于带假人的逻辑回归?

机器算法验证 物流 分类数据 状态 固定效应模型
2022-03-22 08:04:04

我有一个包含 8000 个集群和 400 万个观测值的数据集。不幸的是,我的统计软件 Stata 在使用其面板数据函数进行逻辑回归时运行相当缓慢:xtlogit即使使用 10% 的子样本。

但是,当使用非面板logit功能时,结果会更快出现。因此,我可能会受益于使用logit修改后的数据来解释固定效应。

我相信这个程序被称为“Mundlak 固定效应程序”(Mundlak, Y. 1978. Pooling of Time-Series and Cross-Section Data. Econometrica, 46(1), 69-85。)

我在Antonakis, J.、Bendahan, S.、Jacquart, P. 和 Lalive, R. (2010)的论文中找到了对该过程的直观解释。关于提出因果主张:审查和建议。领导季刊,21(6)。1086-1120。我引用:

解决遗漏固定效应问题并仍包含第 2 级变量的一种方法是在估计模型中包含所有第 1 级协变量的聚类均值(Mundlak,1978 年)。聚类均值可以作为回归量包含在内,也可以从级别 1 协变量中减去(即聚类均值居中)。集群均值在集群内是不变的(并且在集群之间有所不同),并且允许对 1 级参数进行一致的估计,就像包含了固定效应一样(参见 Rabe-Hesketh & Skrondal,2008)。

因此,聚类均值居中对于解决我的计算问题似乎是理想且实用的。然而,这些论文似乎面向线性回归(OLS)。

这种聚类均值居中方法是否也适用于“复制”固定效应二元逻辑回归?

应该得出相同答案的一个更具技术性的问题是:当数据集 B 是数据集 A 的聚类均值中心版本时,数据集 A 是否xtlogit depvar indepvars, fe等于数据集 B?logit depvar indepvars

我在这个聚类均值中心中发现的另一个困难是如何处理假人。因为虚拟变量是 0 或 1,它们在随机和固定效应回归中是否相同?他们不应该“居中”吗?

3个回答

一阶差分或内部变换(如贬低)在 logit 等模型中不可用,因为在非线性模型的情况下,此类技巧不会消除未观察到的固定效应。即使您有一个较小的数据集,其中可以包含 N-1 个单独的虚拟变量来直接估计固定效应,这也会导致估计有偏差,除非您的数据的时间维度很大。因此,消除面板 logit 中的固定效应既不遵循差异也不贬低,并且仅由于 logit 函数形式才有可能。如果您对细节感兴趣,您可以查看Söderbom 在 PDF 第 30 页(解释为什么 logit/probit 中的贬低/一阶差分没有帮助)和第 42 页(面板 logit 估计器介绍)上的这些注释。

另一个问题是xtlogit面板 logit 模型通常不直接估计计算边际效应所需的固定效应。没有这些,解释您的系数将非常尴尬,在运行模型数小时后可能会令人失望。

有了这么大的数据集和前面提到的 FE 面板 logit 的概念困难,我会坚持使用线性概率模型。我希望这个答案不会让你失望,但是给出这样的建议有很多充分的理由:LPM 更快,系数可以立即解释(如果你的模型中有交互效应,这尤其适用,因为它们的解释非线性模型中的系数会发生变化!),固定效应很容易控制,您可以调整自相关和聚类的标准误差,而无需超出合理的估计时间。我希望这有帮助。

我相信条件 logit(Stata 上的“clogit”),它是另一种固定效应 logit 面板估计器。

http://www3.nd.edu/~rwilliam/stats3/Panel03-FixedEffects.pdf

Allison 在 Allison, (2009), "Fixed effects regression models", p.32f 中讨论了这个问题。

Allison 认为不可能以最大似然估计无条件模型。之所以如此,是因为模型由于“附带参数问题”而出现偏差。相反,他建议使用条件 logit 模型(Chamberlain,1980)。这是通过根据每个个体观察到的事件数量来调节似然函数来实现的。