方差分析在统计上不显着......但数据仍然存在模式吗?

机器算法验证 方差分析 统计学意义
2022-03-27 00:17:11

问题我有一个计算机算法,并试图测量参数 (NS) 对算法 (SC) 输出的影响。我的假设是,如果 NS 水平降低,SC 也应该相应降低。我正在用 R 语言进行所有的统计分析(见下文)。

我已经对我的数据进行了方差分析,尽管结果在统计上并不显着,但看起来数据存在某种模式(降低 NS 确实会降低 SC)。我尝试增加我的样本量,这确实导致更多的成对比较变得具有统计意义。但是,当我这样做时,Levene 检验的结果表明我的方差不再是同方差的,因此方差分析无效......

如果您查看输出平均值 (sc) 的图表,您可以看到当我说“看起来有一种模式”时我在说什么。我已经多次生成不同的数据集,每次,SC 的均值分散类似于下图(尽管成对比较在统计上不显着)。

平均 SC 值

我在做什么

这是我的 R 代码和一些输出:

t <- read.table("output.dat") 
names(t) <- c("sc", "ns")
leveneTest(t$sc, group=t$ns, center=median)

Levene's Test for Homogeneity of Variance (center = median)
          Df F value Pr(>F)
group     24  1.0447 0.4018
  124975               
Warning message:
In leveneTest.default(t$sc, group = t$ne, center = median) :
t$ne coerced to factor.

t.aov <- aov(t$sc ~ as.factor(t$ns))
summary(t.aov)

                    Df  Sum Sq Mean Sq F value Pr(>F)    
as.factor(t$ne)     24    1448   60.32   5.488 <2e-16 ***
Residuals       124975 1373548   10.99                   
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1 

TukeyHSD(t.aov)  #This prints out a HUGE table which I'm not going to include
                 #The point is all but a few of the comparisons aren't statistically         
                 #significant at the p = 0.05 level 
plot(TukeyHSD(t.aov))

置信区间图

所以......在这一点上,我准备说调整 NS 的水平不会影响 SC(除了 1-24、2-24 等,比较,很难在图表中看到,但它在那里),因此降低 NS 的水平不会导致 SC 的最小化。

但是,我无法将 SC 均值的图表与方差分析的统计含义相协调……我的直觉是否让我误入歧途,我是否应该简单地拒绝我的假设?有没有办法我仍然可以增加我的样本量以获得显着的结果,即使 Levene 测试表明我的数据不再是同方差的?我应该使用不同的统计工具而不是方差分析来决定这些事情吗?

任何建议、建议或批评都表示赞赏。

PS我不是统计学家,所以如果我在做一些非常愚蠢的事情,请告诉我。

2个回答

您正在错误地考虑您的方差分析。没关系,很多人都是这样学习方差分析的。ANOVA 并不意味着预测变量的水平之间存在任何显着差异。它们都不重要,但方差分析却很重要。这意味着数据的模式是有意义的。只需报告您的显着方差分析并描述数据模式。无论如何,这听起来完全像您想要做的事情。

作为改进建议,如果您进行回归并对两个变量之间的数学关系有所了解,这将是一个更有意义的分析。它看起来有点指数,但即使是一条简单的线也很合适。事实上,这里的 ANOVA 和线性回归之间的比较将显示 ANOVA 的所有自由度的优势非常小,并允许您更直接地说明变量之间的关系。

您遇到了 p 值的基本问题之一:它们部分取决于样本量。

因此,当您增加样本量时,较小的效应量变得显着。这解释了您报告的两个变化 1) 更多的比较变得显着,因为较小的效果大小是(这似乎是一件好事) 2) 异质性的测试由于同样的原因变得显着。

在我看来,最好专注于效应大小和置信区间。