关于如何使用伪复制(依赖数据)分析生存数据的任何想法?

机器算法验证 造型 生存 实验设计 独立 虚弱
2022-03-14 13:25:22

我是一名学生,正在与一个团队进行大规模的生态实验。我们想要分析从具有一些伪复制的实验设计中得出的生存数据。不幸的是,直到实验中期才发现这种伪复制,此时设计无法更改。

实验设计涉及比较几个处理组的生存数据,每个处理组由 10 个重复(水族箱)组成,每个水箱中有 10 个人。我们将死亡率作为响应变量来衡量,以应对不同的环境压力。问题是我们不能说发生的每一起死亡事件都是独立发生的,因为每个坦克都有很多人。我们想承认这个问题并在我们的分析中解决它。

我们知道的所有生存分析工具都假设重复之间是独立的。我们正在考虑使用 Kaplan-Meier 曲线、Cox 比例风险,甚至是带有 Gamma 误差分布的 glm。

关于我们如何正确解决这个问题以检测治疗组之间存活率差异的任何想法?

1个回答

这里有一些关于我会使用相对简单的方法做什么的想法(即避免脆弱的模型,我承认我从未使用过也不太了解,所以其他人可能愿意提供涉及它们的答案)。我假设除了实验结束之外您没有其他形式的审查,并且没有时间依赖性暴露(即治疗是恒定的或仅在发生任何死亡之前的开始时应用)

  • 做一些描述性统计和 Kaplan-Meier 图,忽略依赖性问题,因此不报告或显示标准误差、置信区间或 p 值。
  • 忽略时间部分,只计算每个水族馆总起始人数中的死亡人数。使用逻辑链接函数(给出优势比)或对数链接函数(以拟合模型的潜在问题为代价,给出更易于解释的风险比),将具有二项式分布的广义线性模型拟合到这些计数. 我认为这与您在对该问题的第一条评论中所说的分析相同。由于您的死亡率相当低,因此使用脆弱建模进行完整生存分析的能力损失可能是适度的。这克服了依赖性问题,因为您使用每个水族馆而不是每个个体作为分析单位。