我正在分析这个问题中给出的数据:“城市”应该是固定的还是随机的效应变量?
在这里,“城市”是作为固定效应还是随机效应存在争议。
样本量会影响这个选择吗?
我认为,如果样本量很大,可以选择固定或随机效应方法。但是我不确定如果样本量很小,哪种方法仍然有效。
另外,我想知道在这种情况下如何确定样本量?
我正在分析这个问题中给出的数据:“城市”应该是固定的还是随机的效应变量?
在这里,“城市”是作为固定效应还是随机效应存在争议。
样本量会影响这个选择吗?
我认为,如果样本量很大,可以选择固定或随机效应方法。但是我不确定如果样本量很小,哪种方法仍然有效。
另外,我想知道在这种情况下如何确定样本量?
在混合模型的背景下讨论样本大小时需要注意。
首先,有整体(总)样本量,我们称它为
然后是主题的数量(在你的例子中是城市),我们称之为
然后是每个主题(城市)内的观察次数。在观察性研究中,每个主题之间通常会有所不同,因此我们需要对其进行索引。对其进行索引并称之为
显然我们有
请注意,除了这个条件之外,和是不相关的。可以很大,而可以很小。例如,在您的城市案例中,您可能仅对来自 4 个城市的数千名参与者进行抽样。仍然是 4,并且与您的其他问题完全相同的考虑适用
另一方面,我们可以让小而大(受上述条件限制),这意味着我们可以拥有小集群。一般来说,关于的最小样本量的问题有点棘手。基本上最小值是 1,但是如果有太多的单例集群,就会出现统计能力问题,并且可能会出现模型收敛问题。这个问题及其答案应该提供更多的背景和细节。
然后还有另一个量称为“有效样本量”。这与集群内的相关程度有关。如果没有相关性,则不需要随机截距并且有效样本量为,但是当存在相关性时,这会被所谓的设计效果减少:
其中是平均簇大小,是类内相关系数(方差分配系数),这适用于计算整体线性统计所需的样本大小(均值和总数)。对于回归系数,它有点复杂。