机器算法验证 - 样本量为 1 时的统计检验 - 吾爱随笔录

样本量为 1 时的统计检验

机器算法验证假设检验估计实验设计

2022-01-15 08:43:32

我是一名高中数学老师，有点难过。一个生物学系的学生带着他的实验来找我，想知道他可以用他的数据做什么样的统计分析（是的，他应该在实验之前决定，但直到之后我才被咨询）。

他正试图确定胰岛素对细胞培养物中葡萄糖浓度的影响。在稍微不同的条件下，将六种培养物分为三对（一对有胰岛素，一对没有）。

问题是他只从每个样本中抽取一个样本，因此没有标准偏差（或者标准偏差为 0，因为该值与自身变化为 0）。

他可以用这些数据进行任何统计分析吗？除了重做实验，我应该给他什么建议？

4个回答

不幸的是，您的学生有问题。

任何（推论）统计分析的想法是了解观察模式是否可以简单地归因于自然变化或偶然性，或者那里是否存在系统性的东西。如果自然变化很大，那么观察到的差异可能只是由于偶然性。如果自然变化很小，那么它可能表明存在真正的潜在影响。

只有一对观察结果，我们不知道我们观察到的数据的自然变化。所以我们缺少了一半我们需要的信息。

您注意到您的学生有三对观察结果。不幸的是，它们是在不同的条件下收集的。因此，我们在这三对之间观察到的差异可能仅仅是由于不同的条件，并且不会帮助我们解决有关胰岛素可能影响的潜在问题。

要抓住的一根稻草是通过其他渠道了解自然变异。也许之前已经在类似条件下进行了类似的观察并在文献中进行了报道。如果是这样，我们可以将我们的观察结果与这些公布的数据进行比较。（这仍然会有问题，因为协议几乎肯定会略有不同，但总比没有好。）

编辑：请注意，我在这里的解释适用于这种情况对胰岛素的作用有潜在影响的情况，一种相互作用。如果我们可以忽略这种可能性并仅期望主要影响（即，该条件将对葡萄糖产生与胰岛素的额外影响无关的附加影响），那么我们至少可以按照BruceET 的回答正式运行 ANOVA 。这可能是学生能做的最好的事情。（他们至少可以练习写出他们学习的局限性，这也是一项重要的技能！）

如果做不到这一点，恐怕唯一的可能就是回到实验室工作台收集更多数据。

无论如何，这是一个（可能很痛苦，但仍然）很好的学习机会！我相信这个学生将来在计划他们的学习之前总是会考虑统计分析，这应该是这样的。最好在高中而不是只在大学里学习。

让我以罗纳德·费舍尔的相关引述作为结束：

实验结束后咨询统计学家往往只是要求他进行尸检。他或许可以说出实验因何而死。

每个细胞一次观察的双向 ANOVA

在您完成关于在开始获取数据之前咨询统计学家的重要“讲座”之后，您可以告诉您的学生，这里几乎没有足够的数据来支持合法的实验设计。

如果受试者是从一些相关人群中随机选择的，六名受试者中的每一个都以相同的方式进行血糖测定，如果血糖水平呈正态分布，那么似乎可以根据简单的两个每个细胞一次观察的-way ANOVA。

显示的数据可能是这样的表格：

                Insulin
             --------------
Method       Yes         No
---------------------------
     1
     2 
     3

模型为其中个方法；条件（Y 或 N），并且您可以查看中级统计文本或实验设计的介绍性文本以了解详细信息。 $Y_{ij} = \mu + \alpha_i + \beta_j + e_{ij},$ $i = 1,2,3$ $j = 1, 2$ $e_{ij} \stackrel{iid}{\sim} \mathsf{Norm}(0, \sigma).$

双向 ANOVA 设计将允许测试两种条件是否具有不同的葡萄糖水平（如果胰岛素剂量有意义，几乎可以肯定如此）以及三种方法是否不同或都相同。

一个因素只有两个水平，另一个因素只有两个水平，每个细胞只有一个观察值，不可能考虑胰岛素剂量和方法之间的相互作用。[上面的模型中没有项；它将具有与错误项 $(\alpha*\beta)_{ij}$ $e_{ij}.]$

此外，进行任何类型的非参数检验（使用超过三种方法——也许是弗里德曼检验）可能不值得。这就是为什么我在上面特别提到了常态。

在 R 中使用假数据的示例：

gluc = c(110, 135, 123,  200, 210, 234)
meth = as.factor(c(  2,   2,   3,    1,   2,   2))
insl = as.factor(c(  1,   1,   1,    2,   2,   2))
aov.out = aov(gluc ~ meth + insl)
summary(aov.out)
             Df Sum Sq Mean Sq F value Pr(>F)  
meth         2   3119    1559   5.193  0.161  
insl         1   9900    9900  32.973  0.029 *
Residuals    2    600     300                 
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

胰岛素效应在 3% 的水平上显着。

您还可以在配对 t 检验中使用仅配对的胰岛素 (Y/N) 葡萄糖测量值来获得显着的结果。（在 ANOVA 中，方法提供了一些交互作用，无法测试，因为每个细胞只有一个观察值。）

t.test(gluc~insl, pair=T)

        Paired t-test

data:  gluc by insl
t = -8.812, df = 2, p-value = 0.01263
alternative hypothesis: 
  true difference in means is not equal to 0
95 percent confidence interval:
 -136.92101  -47.07899
sample estimates:
mean of the differences 
                    -92

注意：请参阅此演示，了解每个单元格多次重复的 ANOVA，并进行详细分析。 $2 \times 3$

BruceET 描述了正确的分析（没有交互的双向 ANOVA），所以我将对实验进行更积极的解释。

我假设设计是三对，其中对之间存在可变性。每对中的一个被给予胰岛素，而另一对则没有，希望是随机的。然后每个样本（对 X 处理，我将实验单元称为 petrie）测量一次。

1）这不是一个糟糕的设计。这可能是科学中最常用的实验设计之一——它是一个完整的块设计（当块只有两个观察值时也称为配对设计）。这种设计通常在能力上优于更常见的完全随机设计（所有六个实验单元随机分为一组，三个有胰岛素，三个没有）。配对设计消除了由于配对变异性导致的变异性。说真的，这种设计在农业、医学等领域无处不在。我唯一的反对意见是三对可能允许的功率太小。但它肯定是复制的（有多个对）。

2) 似乎建议学生应该多次采样每个 petrie 以获得复制。这将是一个非常糟糕的建议。对每个实验单元进行乘法采样以获得复制是伪复制的一个示例。如果将伪重复平均在一起以产生每个培养皿的一个测量值，您可能会稍微降低变异性，但您根本不会获得分析的自由度。子样本不是独立的。所以你不建议这样做很好。

注意：是的，使用这种设计，您无法获得文化：治疗交互作用估计。但是，如果将其设计为完全随机的设计，情况也是如此。交互以噪音告终。

摘要：该设计实际上是一个经典的实验设计，强烈推荐用于此类研究。也很容易分析。唯一的反对意见是三对可能动力不足。

令人愉快的问题和一个具有历史先例的问题。尽管我们可能会因为他的实验设计而指责我们初出茅庐的高中初级科学家，但它有一个近乎完美的历史先例。

有些人认为第一个受控的科学医学实验做了同样的事情。这位高中生用安慰剂或干预测试了 3 种情况。英国皇家海军索尔兹伯里号上的医生詹姆斯·林德（James Lind）在他著名的坏血病治疗发现中也做了同样的事情。他假设坏血病可以用酸治疗。所以他想出了六种酸，给 6 名患有坏血病的水手每人一个，同时每个人都有一个匹配的单一对照，用于另外六个没有接受酸的人。这基本上是六个同时进行的对照试验，对一个人进行干预，对另一个人不进行干预。总而言之，12 名水手，6 名接受治疗，6 名未接受治疗。干预措施是“苹果酒、稀硫酸、醋、海水、两个橙子和一个柠檬，或泻药混合物”。我们多么幸运，一位收到柑橘类水果的水手没有意外死于其他原因。其余的，正如他们所说，是历史。我在几个播客上听到过这个讨论，所以我知道这个故事。这是我通过快速互联网搜索找到的引文。它可能不是最好的来源，但如果您想阅读更多内容，它将帮助您入门。

詹姆斯林德和坏血病

-- JS

其它你可能感兴趣的问题

上一篇使用 lmer 进行重复测量线性混合效应模型下一篇什么是关于桌子设计的好资源？