这个单一值是否与该分布匹配?

机器算法验证 假设检验 贝叶斯 t检验
2022-03-14 00:45:45

这感觉像是一个非常幼稚的问题,但我很难看到答案。

我有一组 30 个值。我独立地获得了第 31 个值。零假设是第 31 个值是同一分布的一部分。另一种选择是它的不同。我想要某种 p 值或可能性度量。

我的一些想法:

  • 这类似于想要进行双样本 t 检验——除了第二个样本我只有一个值,而且 30 个值不一定是正态分布的。
  • 如果我有 10000 次测量而不是 30 次测量,那么单次测量的排名可以提供一些有用的信息。

如何计算这种可能性或 p 值?

谢谢!雅尼克

2个回答

在单峰情况下,Vysochanskij-Petunin 不等式可以为您提供粗略的预测区间。这是维基百科网站:http ://en.wikipedia.org/wiki/Vysochanski%C3%AF%E2%80%93Petunin_inequality

使用将导致大约 95% 的预测区间。λ=3

因此,您估计总体的均值和标准差,并仅使用样本均值正负作为区间。x¯3s

这种方法有几个问题。你真的不知道平均值或标准差;您正在使用估算值。通常,您不会有单峰分布,这意味着您将不得不使用切比雪夫不等式的特殊版本。但至少你有一个起点。

对于一般情况,Konijn(The American Statistician,1987 年 2 月)指出顺序统计可以用作预测区间。所以的预测区间, Konijn 称之为大小取值的概率的最大下限(关于允许的联合分布的集合)。” 使用这种方法,93.6% 的预测区间将是[x(i),x(j)]Xjin+1.X[x(1),x(30)].

他还给出了一种归因于 Saw、Yang 和 Mo 的方法:以及文章中给出的覆盖范围的详细信息。

[x¯λ(1+1n)1/2s , x¯+λ(1+1n)1/2s],

例如,在使用将提供超过 90% 的覆盖率。n=30,λ=3.2

我的一些想法:

这类似于想要进行双样本 t 检验——除了第二个样本我只有一个值,而且 30 个值不一定是正态分布的。

正确的。这个想法有点像一个单一值的 t 检验。由于分布未知,并且只有 30 个数据点的正态性可能有点难以接受,这需要某种非参数测试。

如果我有 10000 次测量而不是 30 次测量,那么单次测量的排名可以提供一些有用的信息。

即使有 30 次测量,排名也可以提供信息。

正如@whuber 所指出的,您需要某种预测间隔。对于非参数情况,您要问的基本上是以下内容:给定数据点偶然具有我们在您的第 31 次测量中观察到的排名的概率是多少?

这可以通过简单的置换测试来解决。这是一个包含 15 个值的示例和一个实际上比前面任何一个都大的小说(第 16 次观察):

932
915
865
998
521
462
688
1228
746
433
662
404
301
473
647

new value: 1374

我们执行N次排列,其中列表中元素的顺序被打乱,然后问一个问题:(打乱的)列表中第一个元素的值的排名是多少?

执行 N=1,000 排列给了我们 608 种情况,其中列表中第一个元素的排名等于或优于新值的排名(实际上相等,因为新值是最好的)。再次对 1,000 个排列运行模拟,我们得到 658 个这样的情况,然后是 663...

如果我们执行 N=1,000,000 排列,我们将获得 62825 个案例,其中列表中第一个元素的等级等于或更好的新值的等级(进一步模拟给出 62871 个案例,然后是 62840...)。如果取满足条件的情况与排列总数之间的比率,我们会得到像 0.062825、0.062871、0.06284 等数字。

您可以看到这些值向 1/16=0.0625 (6.25%) 收敛,正如 @whuber 所指出的,这是随机抽取的给定值(16 个)在其中排名最高的概率。

对于新数据集,其中新值是次优值(即排名 2):

6423
8552
6341
6410
6589
6134
6500
6746
8176
6264
6365
5930
6331
6012
5594

new value: 8202

我们得到(对于 N=1,000,000 排列):125235, 124883... 有利的情况,再次近似于随机抽取的给定值(16 个中)在其中排名第二的概率:2/16= 0.125 (12.5%)。