机器算法验证 - 方差分析在统计上不显着......但数据仍然存在模式吗？ - 吾爱随笔录

问题我有一个计算机算法，并试图测量参数 (NS) 对算法 (SC) 输出的影响。我的假设是，如果 NS 水平降低，SC 也应该相应降低。我正在用 R 语言进行所有的统计分析（见下文）。

我已经对我的数据进行了方差分析，尽管结果在统计上并不显着，但看起来数据存在某种模式（降低 NS 确实会降低 SC）。我尝试增加我的样本量，这确实导致更多的成对比较变得具有统计意义。但是，当我这样做时，Levene 检验的结果表明我的方差不再是同方差的，因此方差分析无效......

如果您查看输出平均值 (sc) 的图表，您可以看到当我说“看起来有一种模式”时我在说什么。我已经多次生成不同的数据集，每次，SC 的均值分散类似于下图（尽管成对比较在统计上不显着）。

平均 SC 值

我在做什么

这是我的 R 代码和一些输出：

t <- read.table("output.dat") 
names(t) <- c("sc", "ns")
leveneTest(t$sc, group=t$ns, center=median)

Levene's Test for Homogeneity of Variance (center = median)
          Df F value Pr(>F)
group     24  1.0447 0.4018
  124975               
Warning message:
In leveneTest.default(t$sc, group = t$ne, center = median) :
t$ne coerced to factor.

t.aov <- aov(t$sc ~ as.factor(t$ns))
summary(t.aov)

                    Df  Sum Sq Mean Sq F value Pr(>F)    
as.factor(t$ne)     24    1448   60.32   5.488 <2e-16 ***
Residuals       124975 1373548   10.99                   
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1 

TukeyHSD(t.aov)  #This prints out a HUGE table which I'm not going to include
                 #The point is all but a few of the comparisons aren't statistically         
                 #significant at the p = 0.05 level 
plot(TukeyHSD(t.aov))

置信区间图

所以......在这一点上，我准备说调整 NS 的水平不会影响 SC（除了 1-24、2-24 等，比较，很难在图表中看到，但它在那里），因此降低 NS 的水平不会导致 SC 的最小化。

但是，我无法将 SC 均值的图表与方差分析的统计含义相协调……我的直觉是否让我误入歧途，我是否应该简单地拒绝我的假设？有没有办法我仍然可以增加我的样本量以获得显着的结果，即使 Levene 测试表明我的数据不再是同方差的？我应该使用不同的统计工具而不是方差分析来决定这些事情吗？

任何建议、建议或批评都表示赞赏。

PS我不是统计学家，所以如果我在做一些非常愚蠢的事情，请告诉我。