使用 Hartigans 的倾角检验来拒绝具有大 N 的单模态零假设是否有效?

机器算法验证 分布 统计学意义 模式
2022-04-05 01:47:18

第一次提问,所以请温柔:)

我有两个来自模拟的数据分布。从肉眼来看,一个看起来可能是双峰的,一个不是。我在下面复制它们

在此处输入图像描述

A:参数值 1:通过眼睛可能是双/多模式

在此处输入图像描述

B:参数值2:通过眼睛单峰

我想我会使用 Hartigans 的倾角测试来测试 H1:not uni-modal vs H0:uni-modal。问题是检验统计表明我拒绝了两种分布的单峰性原假设,其值远低于建议的 0.05 阈值。事实上,看起来更单峰的分布的检验统计量低于看起来可能是多峰的分布的检验统计量(dist A: D = 0.00814; dist B: D = 0.00340)

我认为我看到的是相当大的 N(N=5000)的影响,因此样本量为测试提供了统计能力。但是对直方图的检查表明这是无效的。是否有某种方法可以正式讨论基于此检验拒绝零假设是否有效?

我在这里阅读了一些帖子(测试双峰分布和@whuber 的建议搜索)。我也在其他地方找到了这个,但答案有点笼统 - 基本上是说如果 N 很大,你可能会发现很多重要的测试,我已经怀疑这里就是这种情况。

我意识到对 uni/non-uni 模态结果的因果机制的一些考虑可能有助于讨论,但也想了解统计检验。

我想要一些建议

1)我是否正确解释了测试统计数据(即 D < 0.05 拒绝单模态的证据)?

2)有没有办法确定大 N 是否给测试带来了不适当的统计功效?

1个回答

与其说假设检验对大 n 有“太大的影响”,不如说假设检验似乎无法回答您感兴趣的问题。

鉴于样本量很大,在我看来,第二个图至少有两种模式的建议。

“质量不同”基本上是“这是否足够重要?” 这更多的是影响大小而不是显着性的问题(假设检验甚至可以识别出微不足道的差异,因此他们根本没有回答诸如“它们有多大不同?”之类的问题)。事实上,通常情况下我们已经知道 null 是假的,所以我们当然不应该在这种情况下使用一个。对您认为在分布差异方面重要的任何事物进行一些诊断措施可能是有用的。

我认为确实存在两个问题 - 1)我是否看到了效果(由单模输入产生的多模式输出)和 2)这种效果有多大(并且,相关的,它是否足够重要?)

第一个问题可能被视为假设检验问题(尽管这不是唯一的方法)。关于第二个问题,Hartigan&Hartigan的论文说

dip 测试通过经验分布函数和最小化该最大差异的单峰分布函数之间的最大差异来测量样本中的多峰性。

- 该统计数据似乎是对单峰偏差程度的完全合理的衡量。至于差异的大小是否重要,在不了解应用程序的情况下很难说 - 你可能更适合判断它(或确定其他一些你可以说它是否重要的​​衡量标准)。

我想知道的是,我的模拟是否使用相同的输入分布但改变了一个参数(我已经绘制)会导致质量上不同的输出分布,特别是如果系统具有不同数量的操作模式。

由于您对模式数量的两个样本比较感兴趣,因此甚至可以修改一个样本案例的统计信息以用于两个样本案例。

我想到的一种方法是重新采样。

计算两个样本的浸渍测试统计数据的差异。那是你衡量效果的标准。

例如,您可以进行自举来估计标准误差或为倾斜统计的差异建立置信区间。鉴于位置的不同,您可以尝试在样本内重新采样。测试可能基于置信区间是否覆盖 0。您可能需要进行一些模拟以查看此类区间的覆盖范围是否合理,以及估计/减少偏差的技术是否有帮助。

如果您认为形状在空值下相同,则另一种引导方法可能是对位置和比例进行一些估计并重新采样标准化残差。


另一种选择可能是考虑一个可能适合分布形状的模型,如果它单峰的,然后将这两个样本视为这种分布的有限混合(位置或比例混合,如果您对问题的了解表明其中之一) ); 那么作为衡量标准,您估计的组件数量会有一些差异。

这比我想的要具体一些,但它至少是一个起点。