我喜欢chl写的。尽管如此,我还是想讨论这种情况是否一定需要一个复杂的模型。但首先,让我们从对一些评论的回应开始。
(1) 你不会因为森林覆盖的空间相关性而失去任何自由度。这是一个解释变量,而不是您要建模的变量。当因变量的残差表现出空间自相关时,您可能会失去“自由度” 。即使因变量本身的地图表明存在很强的空间相关性,这种相关性也不一定是给定的。原因是地图中的相关性可能源自森林覆盖(和其他空间分布的协变量)的相关性。请记住,在这样的模型中,您不会问“样本是否独立”——通常很明显它们不是——而是它们与其建模值的任何偏差是否是独立的。
(2) 因此,可能不需要条件自回归模型。我认为这种建模选择只有在您想测试传染理论时才会有吸引力。
现在回答最初的问题:是的,首先运行一个普通的逻辑(或泊松)模型,因为作为一般原则,最好先尝试简单(但合理)的模型。 如果它的残差没有表现出很强的空间相关性,那么你就可以接受结果。如果有证据表明相关性和证据表明它会明显影响您的答案(系数、预测或其他),请考虑使用广义线性地统计模型 (GLM)。这些在 Diggle & Riberio, Model-based Geostatistics中有描述(相对便宜且易于访问的文本),它本身记录了用于进行估计的几个 R 包和一些相关的 EDA 工具(geoR 和 geoRglm)。GLM 方法可让您同时拟合模型并评估空间自相关程度。我在这些包中发现的主要限制是(1)它们不能很好地处理各向异性——你可以检测到它,但很难将它合并到模型中——以及(2)它们没有嵌套的规定变异函数,这在一定程度上限制了您对空间相关性进行建模的能力。对于小型数据集,这两者都没有问题,因为您需要(通常)数百到数千甚至更多的观察来在这个细节级别上对相关性进行建模。
最后,谈谈“人口”问题。我假设您感兴趣的不仅仅是对数据的描述:您寻求有关疾病与其他可观察因素之间可能关联的信息。即使您对某个空间区域的数据进行了全面的描述,它仍然不像人口普查,因为结果可能不是这样。明年,在森林覆盖相同的情况下,疾病模式将略有不同。在该国或世界的其他地区以及其他时间,完全相同的解释变量值组合可能会产生不同的疾病发生率。因此,您正在建模一个过程,而不是一个总体。