拨款通常需要功效分析来支持建议的样本量。在蛋白质组学(和大多数组学)中,在 10 个样本(可能是 100 个,但不太可能)中测量到 100 到 1000 个特征/变量。此外,众所周知,其中一些测量单位(例如蛋白质的光谱计数)不是正态分布的,因此我们将使用非参数检验进行分析。我已经看到假设单次测量和假设 t 检验确定的样本量的功效,但我认为这并不完全正确。光谱计数的另一个问题是,100 个特征中的每一个都在非常不同的尺度上,误差也大不相同(值越大误差越小)。[这个问题在极限倍数变化模型中得到了很好的描述,Mutch et al., 2002 ]
给定 FDR 的一些假设和可接受的倍数变化,确定建议样本量的功效的适当方法是什么?使用此处的工具,我能够确定以下内容:
- 300个基因
- 3 误报
- 1.4倍差异
- 0.8 所需功率
- 0.7 标准差
需要每组 49 个样本量。
这很方便,因为我提出了 50v50 设计,知道 1.4 倍的变化是可以接受的,1% FDR 很好,我可能会在这个实验中测量 300 种蛋白质。这种功效或样本量计算的问题将继续发生,因此最好有一个参考方法。
编辑: 我读到一位同事建议使用似然函数和 Wald 检验从负二项分布中对光谱计数进行建模。基本上使用初步数据来获得蛋白质方差估计,然后计算每个分位数组之间可检测的倍数变化。还有一个 FDR (alpha) 输入。因此,给定 >80% 的功效和设定的样本量,他们可以确定 25% 的最低方差、50% 的较小方差和 25% 的最高方差的可检测倍数变化。问题是我不知道他们是怎么做到的。不确定分享这种方法是否会帮助任何人提供可能的答案。