“所有这些数据点都来自同一个分布。” 如何测试?

机器算法验证 假设检验 分布 混合分布
2022-01-28 20:11:01

我觉得我以前在这里讨论过这个话题,但我找不到任何具体的东西。再说一次,我也不确定要搜索什么。

我有一组一维有序数据。我假设集合中的所有点都来自相同的分布。

我怎样才能检验这个假设?针对“该数据集中的观察来自两个不同的分布”的一般替代方法进行测试是否合理?

理想情况下,我想确定哪些点来自“其他”分布。由于我的数据是有序的,在以某种方式测试切割数据是否“有效”之后,我能否确定一个切割点?

编辑:根据 Glen_b 的回答,我会对严格积极的单峰分布感兴趣。我也对假设分布然后测试不同参数的特殊情况感兴趣。

2个回答

想象两个场景:

  1. 数据点都来自相同的分布——在 (16,36) 上是一致的

  2. 数据点来自两个群体的 50-50 组合:

    一种。人口 A,其形状如下:

在此处输入图像描述

湾。人口 B,形状如下:

在此处输入图像描述

...使得两者的混合看起来与 1 中的情况完全相同。

怎么能分得清呢?

无论您为两个种群选择何种形状,总会有一个形状相同的种群分布。这个论点清楚地表明,对于一般情况,你根本做不到。没有办法区分。

如果您介绍有关人口的信息(假设,有效地),那么通常可能有继续进行的方法*,但一般情况下已经死了。

* 例如,如果您假设人口是单峰的并且具有足够不同的意味着您可以到达某个地方

[添加到问题中的限制不足以避免我上面描述的那种问题的不同版本——我们仍然可以在正半线上写一个单峰空值作为两个单峰分布的 50-50 混合在正半线上。当然,如果您有更具体的空值,这将不再是一个问题。或者,在我们能够针对某些混合替代品进行测试之前,应该仍然可以进一步限制替代品的类别。或者一些额外的限制可能适用于 null 和 Alternative,这将使它们可以区分。]

您显然需要一些理论来讨论分布和状态假设以进行测试。将受试者分为一组或多组的东西,以及使测量分开的东西。

你怎么能到那里?我看到三个选项:

  • 如果您已经从您的主题中知道了这一点,那么您只需将其翻译成统计假设的语言
  • 绘制图表并识别模式以成为要测试的假设
  • 拿出一个你可以拟合的分布列表并做一个数学实验。概率规划是这里的关键词

然后,该练习将让您得出结论,您的样本中有一个或多个组,或者只有一个。或者根本没有组。