具有强烈变化的数据点的有意义的偏差测量

机器算法验证 标准差 统计学意义 标准错误
2022-04-05 11:07:32

我试图通过它们在一组合成数据样本上的表现来比较几种方法。对于每种方法,我为每个样本获得了一个介于 0 和 1 之间的性能值。然后我绘制了每个方法的平均性能图

现在的问题是,每个样本可实现的质量在不同样本之间差异很大(如果你想知道为什么,我会生成随机图并评估社区检测方法,有时会发生奇怪的事情,比如来自同一个社区的元素由于稀疏而断开连接ETC)。因此,根据标准偏差或标准误差显示误差线往往会变得非常大。

想象一种方法产生 [1, 0.5, 1],而另一种方法(一个相同的三个样本)[0.5, 0.25, 0.5]。我可以应用哪种度量来*de*强调系列中的样本间方差并强调方法 1 总是优于方法 2 的事实?或者,换一种说法,我如何测试方法 1 是否明显优于方法 2,而不会被各个数据点的不同范围误导?(另请注意,我通常有两种以上的方法来比较,这仅用于示例)

谢谢,尼克

更新 我所做的一件事是计算每种方法的性能在最高性能的 95% 以内的次数。这张图片非常支持基于样本的方差,而不是稳健与不太稳健的方法。但是,我仍然不确定如何从中生成统计上有效的陈述..?

两年后更新 刚刚再次找到这个答案。仅适用于偶然发现此问题的任何人:我进行了符号测试:方法 x 比方法 y 好多少次。然后零假设是,如果没有差异,一个应该在 50% 的时间里比另一个更好 - 计算实际赢/输数源于 0.5 个硬币翻转的概率可以通过二项式分布计算,并提供身为你的p.

2个回答

您需要使用一些配对测试,也许配对 t 检验或符号测试是分布真的很奇怪。

我完全不确定忽略性能分布是否是个好主意。理想情况下,您希望一种方法既可靠(即具有低传播)又有效(即,给出接近 1 的性能度量)。考虑以下两个输出度量:

方法 1. [0.80, 0.60]

方法 2。[0.71, 0.69]。

与您的示例不同,没有明显占主导地位的方法,实际上这两种方法平均表现同样出色。因此,您可能希望选择更可靠的(即具有较低点差的)。

如果您接受上述推理,那么您的零假设应该是:

μ1σ1=μ2σ2

以上与金融学的夏普比率类似,我相信有大量的金融文献讨论了如何检验上述假设及其对超过 2 个组的扩展。不幸的是,我没有很好地阅读那些文献来帮助你。