回归分析和参数估计与总体

机器算法验证 假设检验 回归 物流
2022-04-04 18:37:17

我在这里看到了一些关于随机样本的统计推断与我们实际拥有人口数据时会发生什么之间的差异。大多数论点似乎表明您“实际上从未拥有人口”,而您认为拥有的人口数据代表了一些不可观察的超级人口,这是数据生成过程。

但是假设我们有一个州,由县覆盖,我们有每个县的某些环境方面的数据,例如森林总面积。我们想看看一些二元县级结果是否与森林有关 - 比如说是否存在疾病(在这里考虑莱姆病)。据我所知,这符合“人口”级别的数据。运行常规逻辑回归和参数的正常测试会产生正确的估计吗?

涉及到这一点的一件事是“样本”是否独立。在这种情况下,A 县的森林可能与隔壁 B 县的森林有关,这意味着自由度的降低和标准误差估计的不精确性(据我所知)。但即使我们有完全独立的数据,标准的、基于样本的统计推断在这里是否合适?

3个回答

我喜欢chl写的。尽管如此,我还是想讨论这种情况是否一定需要一个复杂的模型。但首先,让我们从对一些评论的回应开始。

(1) 你不会因为森林覆盖的空间相关性而失去任何自由度。这是一个解释变量,而不是您要建模的变量。当因变量的残差表现出空间自相关时,您可能会失去“自由度” 。即使因变量本身的地图表明存在很强的空间相关性,这种相关性也不一定是给定的。原因是地图中的相关性可能源自森林覆盖(和其他空间分布的协变量)的相关性。请记住,在这样的模型中,您不会问“样本是否独立”——通常很明显它们不是——而是它们与其建模值的任何偏差是否是独立的。

(2) 因此,可能不需要条件自回归模型。我认为这种建模选择只有在您想测试传染理论时才会有吸引力。

现在回答最初的问题:是的,首先运行一个普通的逻辑(或泊松)模型,因为作为一般原则,最好先尝试简单(但合理)的模型。 如果它的残差没有表现出很强的空间相关性,那么你就可以接受结果。如果有证据表明相关性和证据表明它会明显影响您的答案(系数、预测或其他),请考虑使用广义线性地统计模型 (GLM)。这些在 Diggle & Riberio, Model-based Geostatistics中有描述(相对便宜且易于访问的文本),它本身记录了用于进行估计的几个 R 包和一些相关的 EDA 工具(geoR 和 geoRglm)。GLM 方法可让您同时拟合模型并评估空间自相关程度。我在这些包中发现的主要限制是(1)它们不能很好地处理各向异性——你可以检测到它,但很难将它合并到模型中——以及(2)它们没有嵌套的规定变异函数,这在一定程度上限制了您对空间相关性进行建模的能力。对于小型数据集,这两者都没有问题,因为您需要(通常)数百到数千甚至更多的观察来在这个细节级别上对相关性进行建模。

最后,谈谈“人口”问题。我假设您感兴趣的不仅仅是对数据的描述:您寻求有关疾病与其他可观察因素之间可能关联的信息。即使您对某个空间区域的数据进行了全面的描述,它仍然不像人口普查,因为结果可能不是这样。明年,在森林覆盖相同的情况下,疾病模式将略有不同。在该国或世界的其他地区以及其他时间,完全相同的解释变量值组合可能会产生不同的疾病发生率。因此,您正在建模一个过程,而不是一个总体。

您所描述的似乎是指多级建模的特殊情况,其中数据被组织成层次结构;在您的情况下,森林(第一级单位)嵌套在州中嵌套的县中,但请参阅在什么情况下应该使用多级/分层分析?.

现在,“特殊”情况来自这样一个事实,即您想要考虑空间邻近性,这可能是莱姆病传播的媒介(如果我错了,请纠正我),就像在流行病学中所做的那样研究传染病地理学。在通常情况下,我们可以使用所谓的空间模型,例如多成员模型条件自回归模型等。我在最后附上了一些关于这些方法的参考资料,但我认为你会通过查看生态学或流行病学的相关研究找到更多参考资料。

现在,我认为您可能会特别关注 Langford 等人的以下论文。其特点是具有空间相关数据的多级建模:

Langford, IH, Leyland, AHL, Rasbash 和 Goldstein, H (1999)。疾病地理分布的多层次建模皇家统计学会杂志 C48,253-268

Harvey Goldstein 是一本关于多级建模的优秀书籍Multilevel Statistical Models(第二版免费提供)的作者。最后,Andrew Gelman 的书,Data Analysis Using Regression and Multilevel/Hierarchical Models,可能会提供有关分层/多级建模的更多线索。

关于软件,我知道有用于建模空间相关结果的 R spdep包,但是在BUGS Project中有一些使用 WinBUGS 分析空间分层数据的示例

参考

  1. Browne, WJ, Goldstein, H. 和 Rasbash, J. (2001)多重成员多重分类 (MMMC) 模型统计建模1,103-124
  2. Lichstein, JW, Simons, TR, Shriner, SA 和 Franzreb, KE (2002)。生态学中的空间自相关和自回归模型生态专着72(3),445-463。
  3. Feldkircher,米(2007 年)。应用于跨国增长回归的空间 CAR 模型
  4. Lawson, AB, Browne, WJ 和 Vidal Rodeiro, CL (2003)。使用 WinBUGS 和 MLwiN 进行疾病映射约翰威利父子公司。

我在药物计量学中使用所谓的人口方法在相关领域工作。基本上,您有一个来自普通人群的个体样本,以及每个个体的中等大小的观察样本,以及这些个体的人口统计协变量。

为了对它们进行建模,我们想要制作模型级别。我们希望建立一个适用于我们希望代表整个人口的个人的整体模型。这个整体模型的参数称为“固定效应”。

在这个水平之下,我们有每个个体的模型,因为我们期望个体彼此不同。所以我们有针对每个人不同的附加参数,这些被称为“随机效应”。

在整个模型中要估计的一个关键部分是衡量随机效应的可变性。即,我们知道个体会有所不同,但我们想对这种可变性进行建模。

进一步的建模水平是个体观察的可变性。

将此应用到您的领域并不是我完全理解的事情,但我会推荐 WinBugs 作为建模工具,以及 Gilks​​、Richardson 和 Spiegelhalter 的一本书“Markov Chain Monte Carlo in Practice”。那里有一些示例问题,看起来它们可能适用于您的问题。