蛋白质组学的力量?

机器算法验证 非参数 统计能力
2022-03-10 07:41:42

拨款通常需要功效分析来支持建议的样本量。在蛋白质组学(和大多数组学)中,在 10 个样本(可能是 100 个,但不太可能)中测量到 100 到 1000 个特征/变量。此外,众所周知,其中一些测量单位(例如蛋白质的光谱计数)不是正态分布的,因此我们将使用非参数检验进行分析。我已经看到假设单次测量和假设 t 检验确定的样本量的功效,但我认为这并不完全正确。光谱计数的另一个问题是,100 个特征中的每一个都在非常不同的尺度上,误差也大不相同(值越大误差越小)。[这个问题在极限倍数变化模型中得到了很好的描述,Mutch et al., 2002 ]

给定 FDR 的一些假设和可接受的倍数变化,确定建议样本量的功效的适当方法是什么?使用此处的工具,我能够确定以下内容:

  • 300个基因
  • 3 误报
  • 1.4倍差异
  • 0.8 所需功率
  • 0.7 标准差

需要每组 49 个样本量。

这很方便,因为我提出了 50v50 设计,知道 1.4 倍的变化是可以接受的,1% FDR 很好,我可能会在这个实验中测量 300 种蛋白质。这种功效或样本量计算的问题将继续发生,因此最好有一个参考方法。

编辑: 我读到一位同事建议使用似然函数和 Wald 检验从负二项分布中对光谱计数进行建模。基本上使用初步数据来获得蛋白质方差估计,然后计算每个分位数组之间可检测的倍数变化。还有一个 FDR (alpha) 输入。因此,给定 >80% 的功效和设定的样本量,他们可以确定 25% 的最低方差、50% 的较小方差和 25% 的最高方差的可检测倍数变化。问题是我不知道他们是怎么做到的。不确定分享这种方法是否会帮助任何人提供可能的答案。

1个回答

在应用程序(尤其是伦理应用程序,你必须进行功率研究)中,我喜欢使用参考资料 [Wang and Chen 2004],因为它很好地解释了高通量数据(无论数据实际是什么)的功率计算背后的概念.

本质上,除了通常的参数(α、β、N、效应大小)之外,您还使用了两个附加参数,λ 和 η。后者 η 是假设的真正改变的基因的编号,λ 是您希望能够检测到的真正改变的基因的比例。使用这种方法将任何已知的功率计算扩展到高通量数据是非常简单的。

Wang、Sue-Jane 和 James J. Chen。“用于在微阵列实验中鉴定差异表达基因的样本量。” 计算生物学杂志 11.4 (2004): 714-726。