我目前正在使用纵向数据集,即考夫曼公司调查。
该调查从 2004 年到 2009 年追踪了大约 5000 家公司。这些年来,这些公司逐渐消亡。
它具有横截面重量和纵向重量。
我已经使用 R 检查了 Lumley 的复杂调查,但是关于重复样本的部分没有提供有关使用不同权重的指导。我也有 Levy 和 Lemshow 的人口抽样,但它关于加权的部分说纵向权重超出了本书的范围。我在这件事上找到的最明确的建议在这里:http ://help.pop.psu.edu/help-by-statistical-method/weighting/Introduction%20to%20survey%20weights%20pri%20version.ppt ,幻灯片 23。
从这个电源点,我会假设以下用例:
a) 假设我想获得第 1、2、3 年的平均收入,但仅限于存活到第 3 年的公司,那么我将使用纵向权重。
b) 但是,如果我想获得第 1、2、3 年所有公司(包括那些已经消亡的公司)的平均收入,我将使用第 1 年的横截面基线权重——而不是那一年的纵向权重,这是我认为需要使用的。
c) 最后,如果我只想查看公司第 3 年(不包括第 1 年和第 2 年)的平均收入,我将使用第 3 年的横截面权重。
问题:
1. 这些陈述是否正确?2. 正确使用纵向(面板)权重有哪些好的资源?