我从一个自然实验中得到了一些相当混乱的数据。测量了许多受试者(测量结果希望是泊松分布计数和相关的偏移量),在时间 T 进行治疗,然后在之后的某个时间再次测量。但是,有一些理由怀疑因变量会随着时间而变化,因此我们找到了一个控制数据集,并在 T 之前和之后测量了这些受试者。不幸的是,我不知道对照数据集中的哪些受试者正在接受治疗——我所知道的只是那些坚持治疗的受试者和那些停止治疗的受试者。我可以获得这些信息,但它相当耗时/昂贵。
我想回答两个问题:
- 治疗有整体效果吗?
- 治疗会影响大多数受试者吗?
我真的不知道如何回答 2(McNemar 测试的一些变体?)所以我会很感激那里的一些建议,但是对于 1 我一直在设置这样的问题:
glm(counts ~ as.factor(subject.id) + before + offset(log(observation.time)),family=quasipoisson)
之前编码为 0 或 1。所以我每个主题有两行。我已经对控制数据集和测试数据集进行了回归,并且之前的各自置信区间不相交,所以我有点乐观。但是,在单个分析中组合两个数据集的最佳方法是什么?如果我知道哪些控制数据集进行了处理,哪些没有,这似乎相当容易,但就像我说的,我不知道。