使用可能有缺陷的对照数据分析治疗效果

机器算法验证 回归 临床试验
2022-03-22 13:14:25

我从一个自然实验中得到了一些相当混乱的数据。测量了许多受试者(测量结果希望是泊松分布计数和相关的偏移量),在时间 T 进行治疗,然后在之后的某个时间再次测量。但是,有一些理由怀疑因变量会随着时间而变化,因此我们找到了一个控制数据集,并在 T 之前和之后测量了这些受试者。不幸的是,我不知道对照数据集中的哪些受试者正在接受治疗——我所知道的只是那些坚持治疗的受试者和那些停止治疗的受试者。我可以获得这些信息,但它相当耗时/昂贵。

我想回答两个问题:

  1. 治疗有整体效果吗?
  2. 治疗会影响大多数受试者吗?

我真的不知道如何回答 2(McNemar 测试的一些变体?)所以我会很感激那里的一些建议,但是对于 1 我一直在设置这样的问题:

glm(counts ~ as.factor(subject.id) + before + offset(log(observation.time)),family=quasipoisson)

之前编码为 0 或 1。所以我每个主题有两行。我已经对控制数据集和测试数据集进行了回归,并且之前的各自置信区间不相交,所以我有点乐观。但是,在单个分析中组合两个数据集的最佳方法是什么?如果我知道哪些控制数据集进行了处理,哪些没有,这似乎相当容易,但就像我说的,我不知道。

2个回答

关于治疗状态错误分类的计量经济学文献越来越多。
一个标准的差异方法将是一个自然的起点 - 参见例如http://www.nber.org/WNE/lect_10_diffindiffs.pdf p.17 提到泊松案例。此处描述了一般条件均值函数的错误分类问题:https ://www2.bc.edu/~lewbel/mistreanote2.pdf如果它适用于您的设置,那么您可能有信心发现显着的效果偏差被称为趋向于零。

我建议研究多重插补或其他缺失数据的方法来处理您的控制数据。您可以构建大量不同的可能组合,以确定给定对照是否开启或关闭治疗,并查看它们如何影响您的结果。

归根结底,是的,您可以组合两个数据集,并使用多重插补方法之类的方法可以让您处理丢失数据的问题,当然您可能会有更宽的置信区间,方法是不太优雅,这更难解释。