混杂空间聚类数据的假设检验

机器算法验证 假设检验 模拟 空间的 混杂
2022-04-16 02:44:19

这是对我之前发布的一个问题的详细阐述,因为我觉得我对整个问题的处理方法可能存在很大缺陷。

假设我有一组处理单元和控制单元,每个单元都有一个空间位置和一些响应值。我想知道治疗细胞的反应是否比对照组更相似。然而,由于以下事实,分析变得复杂:

  • 在所有细胞中,附近细胞对的反应倾向于更相似
  • 我的治疗细胞也在空间中显着聚集

到目前为止,我已经尝试使用引导测试找到原假设概率的上限:

  1. 对于每对可能的处理单元,找到一组匹配的控制对,其空间距离小于或等于处理对的空间距离。满足此标准的对数将根据我正在考虑的治疗对而有所不同。
  2. 在匹配的控制对分布中找到每个治疗对的等级,并将其归一化到 0 和 1 之间
  3. 将各组的归一化等级的平均值作为我的“真实”分数。
  4. 通过从每组可能的归一化等级中随机抽取并取平均值来引导零分布。
  5. 这个空分布中“真实”分数的归一化排名给了我我的 p 值。

由于我只考虑距离<=治疗对的控制对,这应该是一个非常保守的测试。但是,如果我要考虑与治疗对的距离在 +/- 某个公差范围内的控制对,我最终会选择平均比治疗对更远的控制对(因为治疗对是空间聚集的,往往会有更多的控制对比治疗对更远)。

有没有更好的方法来做这个分析?我确定我一定遗漏了一些非常明显的东西!

1个回答

根据本文,OLS在存在空间自相关的情况下是一致的,但标准误不正确,需要调整。Solomon Hsiang 为此提供了stata 和 matlab 代码不幸的是,我不熟悉任何 R 代码。

在空间统计中,肯定有其他方法可以解决这类问题,这些方法明确地对空间过程进行建模。这只是夸大了标准错误。