复制时如何执行二项式检验?

机器算法验证 假设检验 置信区间 二项分布 部分
2022-04-12 11:03:45

让我们假设一个基于细胞的分析,其中一些细胞具有不规则的形状。我们可以计算不规则形状细胞的比例为#irregular/#all_cells

2 个实验处理独立测定,每个处理 3 个重复。每个复制品都是一个独立培养的培养皿,其中细胞在一段时间后按所述计数。

由于每个单元格的二元结果,假设一个伯努利分布的随机过程似乎是合理的。

我将如何比较这样的比例数据?想到一个 2 样本二项式检验,但不清楚如何包括重复测量。

与比较相关,我想绘制我的比例的平均值和置信区间。我将如何计算 CI?

如何计算 R 中计数数据的置信区间中的计数数据有一个相关问题?但我怀疑应该以不同的方式处理比例。

4个回答

尝试拟合二项式广义线性模型 - 在 R 中,如果您有一个名为 DF 的数据框,其中包含成功次数(称为“不规则”)和失败次数(“常规”),以及一个治疗/组列,称为处理,带有一个培养皿在每一行,你可以做

Mod <- glm(data = DF, cbind(irregular,regular) ~ Treat, family = "binomial") 
summary(Mod)      #This prints the results, p.values and statistics. 
exp(confint(Mod)) #This gives you the CIs for the different terms in the model

在基础科学(和其他)研究设计中,有很多次重复实验,乍一看,重复测量似乎是合适的。然而,大多数旨在处理源自非独立单元的数据的程序,例如配对 t 检验,需要对同一实验单元进行多次观察。重复实验或从同一生物体或一组条件中获得大量观察结果的实验​​通常不是对相同实验单元的测量,而共享条件确实为评估集群效应创造了适当的环境。虽然可以考虑组或集群效应的存在,但这些设计通常假设从重复之间(例如 菜或老鼠)足够均匀,可以忽略潜在的聚类效应。通过将大量的组间观察集中到一组或将数据视为重复测量来忽略重复水平效应的可能性,这为估计暴露/治疗的真实效应的错误奠定了基础。

在 OP 的情况下,使用逻辑程序来模拟二元结果的概念是合适的(单元格是不规则的或不规则的)。比较比例的想法也是正确的,卡方检验或费舍尔精确检验很容易用于此目的。正如问题后面所建议的,这不是计数数据。

如果培养皿被认为是完美同质的,则无需进一步测试,并且处理对细胞形态的影响是完整的。如果每次对已处理和未处理的培养皿进行复制时,该方法将进一步得到支持,该复制是在同一个培养箱中进行的,在培养箱中使用相同的试剂组交换位置等。这种情况不会造成重复措施,但如果控制是真正的控制,将创建用于隔离处理效果的最佳实验设计。一个不太优化的设计会在不同的日子里复制,在具有不同数量试剂的多个孵化器中复制,等等。在这里,

如果 OP 想要评估复制对实验结果的影响,则应仔细考虑实验方法(OP 未提供详细信息以供评论),并应生成和测试关于复制是否影响治疗效果的一些假设基于所执行的实验。

正如其他答案所暗示的那样,最好的方法可能是使用一系列具有二项式链接函数的广义线性模型。为了检验复制决定细胞不规则性的假设,可以使用类似于以下的模型来测试复制作为虚拟编码变量的影响:(伪代码):

irregular_cell = factor(replication)

如果组数很少而组内测量值很多,这应该足以检验复制效应对细胞不规则性的假设。如果组很多而组内测量值很少,那么最好使用广义估计方程或随机效应模型来估计复制效应。这些模型可以进一步测试集群和治疗之间的相互作用的关联,并且有许多此类工作的简历参考。

最终,OP 可能会发现复制解释了大量的变异,然后需要重新考虑实验设计或报告治疗效果,并根据复制调整主效应和/或标准误差。

SH Hurlbert (1984) 伪复制和生态田间实验的设计,生态专着 54(2) pp. 187 - 211

如果我理解正确,您有 2 个实验条件。在每种情况下,您都有三个培养皿,在每个培养皿中,您都有正在计数的细胞。假设我理解正确,您需要考虑数据中存在聚类的事实(单元格嵌套在盘中)。我认为您应该能够使用混合效应逻辑回归分析您的数据,其中实验条件作为预测因子,不规则性(0/1)作为结果,盘作为集群。此方法还应允许您为您的比例计算 CI(考虑聚类)。

问题陈述:

据我了解,您有 6 个培养皿。您将它们分成两组(A,B)。每组都被同等对待,你可以Nirregular/Ntotal.

然后你想比较治疗。

所以样本数据可能是:

DishGroupNirregularNtotal1A41142A201003A1854B171085B16826B1089

那么你如何比较这些呢?

回答:

这是我们的数字:

mydata <- as.data.frame(cbind(c(1,2,3,4,5,6),
                c("a","a","a","b","b","b"), 
                c(4,20,1,17,16,10),
                c(114,100,85,108,82,89)))
names(mydata) <- c("test","group","N_irr","N_tot")

mydata

输出是这样的:

> mydata
  test group N_irr N_tot
1    1     a     4   114
2    2     a    20   100
3    3     a     1    85
4    4     b    17   108
5    5     b    16    82
6    6     b    10    89

所以现在我们的数字在电脑里,我们可以做一些事情,比如用它们来做图,或者做其他分析。

我喜欢从“总体现实检查”开始。如果你问生物学家,他们可能会告诉你,人类视觉皮层对于 300 万年的生存至关重要,它快速有效地处理数据的能力非常出色。我喜欢破解它,利用它,并将它用于数学。

在这里,我们将数字变成图片。

...工作中