使用混合模型的想法。使用所有可能类别的变量作为随机效应

机器算法验证 混合模式 造型 随机效应模型
2022-04-07 05:05:41

我有一些问题:

检查波兰“powiats”(波兰的一个行政单位,类似于美国的一个县)中的所得税收入与移民之间的关系。我有这方面个别年份的数据。我认为一个好的模型是:

Tax_income ~ balance_of_migration + year + (1|powiat)。

但是,由于一件事,我不确定。我知道应该使用随机效应,当我们有一个因子的水平是从一组可能的样本中提取的。这里的情况不同。我有所有县。但是,我的直觉告诉我,我的模型对我的问题有好处,因为我想考虑对 powiats 重复观察的事实,但我不感兴趣个体的内生变量值的变化是什么powiats(但是,评估县之间的变异性(方差)将是一个好主意)。

你怎么看:我可以在模型中使用“powiats”作为随机效应吗?

2个回答

是的,我认为你的直觉是正确的,你可以适应随机截取。有几个标准来评估一个因素是否应该被视为随机因素,而作为一个总体样本只是一个标准。通常不同的标准指向不同的方向,这是一个判断问题。在这种情况下,如果您真的想严格要求,您可以将您的人口视为来自类似国家/地区的类似实体人口的样本 - 或视为来自不同宇宙中的人口的样本!我当然轻松地说。事实是您拥有集群数据,这是随机效应的主要用例之一。

这是个有趣的问题。确实,了解随机效应ui从更大的人口中抽取的数据与基础模型非常吻合,该模型将它们视为随机变量,例如:

uiiidNormal(0,σ2)

但是,即使您的样本是完整的人口普查,也有人认为实体来自更大的人口任何已实现的实体集都可以被视为“自然随机选择”,这是 Freedman (2005) 提出的一个论点。与此相关的是,戴明(1953)认为,如果使用完整的人口普查来解决一个他所谓的分析问题,即推断潜在的关系或过程以概括(如您的情况)而不是仅仅计算,即使是完整的人口普查也应该被视为有抽样误差的样本。这也可以证明您的县的观点来自更大的分布(用戴明的话来说,来自产生它的“因果系统”)。

这可能取决于您的学科,人们如何严格地对待随机效应模型中的不同假设,但随机效应独立性假设可能比您认为的县人口更具相关性和经验验证。考虑到 RE 相对于 FE 模型的效率优势以及 RE 模型中县间方差的方便估计,这是您的附带目标之一,我建议使用 RE 模型(考虑到其他假设,如独立性假设,在你的上下文,不要伤害)。

参考:

弗里德曼 DA (2005)。统计模型:理论与实践。英国剑桥:剑桥大学出版社。

戴明,我们(1953 年)。关于枚举和分析调查之间的区别。美国统计协会杂志,48(262),244-255。