机器算法验证 - 如果我在一组中几乎没有差异，我可以在测试中进行吗？ - 吾爱随笔录

如果我在一组中几乎没有差异，我可以在测试中进行吗？

机器算法验证假设检验方差分析方差 t检验

2022-03-15 10:30:59

我有 4 个组与标准进行比较。在我的一个小组中，所有参与者对每个项目的回答都相同，即没有差异。

我如何在我的 ANOVA 中处理这个问题？

另外，我在运行测试时将其与标准进行比较，因为我不会得到错误项，我该怎么做？如果我确实包括了一个我不确定我是否包括在我的学生中的参与者，则在 37 个不同的观察中，方差并不完全一致，但是当我运行它时，它并不显着，因为方差太小了。

我知道在计算方面我无能为力。我在问一个人如何在概念上处理它。

4个回答

这里有一些意见可以添加到现有答案中。我认为重要的是要从概念上思考为什么你会得到一个零方差的组。

地板和天花板效果

根据我的心理学经验，这个例子最常出现在天平上有一个地板或天花板的时候，你有一些群体落在天平的中间，而另一些群体则落在了极端。例如，如果您的因变量是五个问题中正确项目的比例，那么您可能会发现您的“智能”组正确率为 100%，或者您的“临床组”正确率为 0%。

在这种情况下：

如果您的某个组中没有差异，您可能希望依靠序数非参数检验。
尽管事后它可能对您没有帮助，但您可能还想从概念上考虑是否使用没有地板或天花板效应的不同措施会更好。在某些情况下，这无关紧要。例如，分析的重点可能是表明一组可以执行任务而另一组不能。在其他情况下，您可能希望对所有组中的个体差异进行建模，在这种情况下，您可能需要一个不受地板或天花板效应影响的量表。

非常小的团体规模

另一种无法获得组方差的情况是，您的组的样本量非常小（例如），通常与相当离散的因变量结合使用。 $n\lt5$

在这种情况下，您可能更倾向于将缺乏方差归结为偶然，并继续进行标准 t 检验。

几年前，我会完全订阅@Michael Chernick 的回答。

但是，我最近意识到 t 检验的一些实现对方差不等式非常稳健。特别是，在 R 中，该函数t.test有一个默认参数var.equal=FALSE，这意味着它不仅仅依赖于方差的汇总估计。相反，它使用Welch-Satterthwaite近似自由度来补偿不等方差。

让我们看一个例子。

set.seed(123)
x <- rnorm(100)
y <- rnorm(100, sd=0.00001)
# x and y have 0 mean, but very different variance.
t.test(x,y)
Welch Two Sample t-test

data:  x and y 
t = 0.9904, df = 99, p-value = 0.3244
alternative hypothesis: true difference in means is not equal to 0 
95 percent confidence interval:
 -0.09071549  0.27152946 
sample estimates:
    mean of x     mean of y 
 9.040591e-02 -1.075468e-06

您可以看到 R 声称执行Welch's t-test而不是Student's t-test。这里声称自由度为 99，即使每个样本的大小为 100，所以这里的函数本质上是针对固定值 0 测试第一个样本。

您可以自己验证此实现是否为具有非常不同方差的两个样本提供了正确的（即统一的）p 值。

现在，这是针对两个样本的 t 检验。我自己对方差分析的经验是它对方差不等式更加敏感。在这种情况下，我完全同意@Michael Chernick 的观点。

如果您假设每个组的方差相同，您可以得到一个合并的方差估计，并使用它来构建成对差异的 t 检验。但这不是一个好的假设，除非所有的方差都很小，并且具有所有相同值的那个只是偶然发生的。如果您不能这样做，那么您将无法估计该组的方差，也无法进行方差分析或将该组作为被比较的对之一进行的任何 t 检验。

在某些情况下，可以计算总体方差的上限，然后在诸如具有不等方差的 t 检验之类的东西中使用该方差。

例如，如果您询问一所 100 名学生中的 10 名随机选择的学生，他们最喜欢 3 月的哪一天，他们都回答了 15 日，那么您知道学生群体可能拥有的最大方差是 10 个值的方差15、1 的 45 个值和 31 的 45 个值，即 204.6364。

较大的方差应该使检测差异更加困难，因此使用此方差上限的 t 检验在检测差异时将是保守的。这意味着您可以确定使用方差上限的 t 检验会产生显着差异，但如果您没有发现显着差异，您就不会知道太多，因为显着差异仍然与一些可能的较小差异。

当然，可能没有很多情况你可以真正解决这个问题，但它可能是可能的。

其它你可能感兴趣的问题

上一篇关于在 R 中为具有附加嵌套结构的重复测量数据指定线性混合模型的问题下一篇用计量经济学估计需求弹性