机器算法验证 - 这个单一值是否与该分布匹配？ - 吾爱随笔录

这个单一值是否与该分布匹配？

机器算法验证假设检验贝叶斯 t检验

2022-03-14 00:45:45

这感觉像是一个非常幼稚的问题，但我很难看到答案。

我有一组 30 个值。我独立地获得了第 31 个值。零假设是第 31 个值是同一分布的一部分。另一种选择是它的不同。我想要某种 p 值或可能性度量。

我的一些想法：

这类似于想要进行双样本 t 检验——除了第二个样本我只有一个值，而且 30 个值不一定是正态分布的。
如果我有 10000 次测量而不是 30 次测量，那么单次测量的排名可以提供一些有用的信息。

如何计算这种可能性或 p 值？

谢谢！雅尼克

2个回答

在单峰情况下，Vysochanskij-Petunin 不等式可以为您提供粗略的预测区间。这是维基百科网站：http ://en.wikipedia.org/wiki/Vysochanski%C3%AF%E2%80%93Petunin_inequality

使用将导致大约 95% 的预测区间。 $\lambda = 3$

因此，您估计总体的均值和标准差，并仅使用样本均值正负作为区间。 $\bar x$ $3s$

这种方法有几个问题。你真的不知道平均值或标准差；您正在使用估算值。通常，您不会有单峰分布，这意味着您将不得不使用切比雪夫不等式的特殊版本。但至少你有一个起点。

对于一般情况，Konijn（The American Statistician，1987 年 2 月）指出顺序统计可以用作预测区间。所以是的预测区间， Konijn 称之为大小取值的概率的最大下限（关于允许的联合分布的集合）。” 使用这种方法，93.6% 的预测区间将是 $\left[ x_{(i)},x_{(j)} \right]$ $X$ ${{j-i} \over {n+1}}.$ $X$ $\left[ x_{(1)},x_{(30)} \right].$

他还给出了一种归因于 Saw、Yang 和 Mo 的方法：以及文章中给出的覆盖范围的详细信息。

[\bar{x} - λ {(1 + \frac{1}{n})}^{1 / 2} s, \bar{x} + λ {(1 + \frac{1}{n})}^{1 / 2} s],

$\left[ \bar x -\lambda \left(1 + {1 \over n}\right)^{1/2}s \ , \ \bar x + \lambda \left(1 + {1 \over n}\right)^{1/2}s \right],$

例如，在使用将提供超过 90% 的覆盖率。 $n=30,$ $\lambda = 3.2$

我的一些想法：

这类似于想要进行双样本 t 检验——除了第二个样本我只有一个值，而且 30 个值不一定是正态分布的。

正确的。这个想法有点像一个单一值的 t 检验。由于分布未知，并且只有 30 个数据点的正态性可能有点难以接受，这需要某种非参数测试。

如果我有 10000 次测量而不是 30 次测量，那么单次测量的排名可以提供一些有用的信息。

即使有 30 次测量，排名也可以提供信息。

正如@whuber 所指出的，您需要某种预测间隔。对于非参数情况，您要问的基本上是以下内容：给定数据点偶然具有我们在您的第 31 次测量中观察到的排名的概率是多少？

这可以通过简单的置换测试来解决。这是一个包含 15 个值的示例和一个实际上比前面任何一个都大的小说（第 16 次观察）：

932
915
865
998
521
462
688
1228
746
433
662
404
301
473
647

new value: 1374

我们执行N次排列，其中列表中元素的顺序被打乱，然后问一个问题：（打乱的）列表中第一个元素的值的排名是多少？

执行 N=1,000 排列给了我们 608 种情况，其中列表中第一个元素的排名等于或优于新值的排名（实际上相等，因为新值是最好的）。再次对 1,000 个排列运行模拟，我们得到 658 个这样的情况，然后是 663...

如果我们执行 N=1,000,000 排列，我们将获得 62825 个案例，其中列表中第一个元素的等级等于或更好的新值的等级（进一步模拟给出 62871 个案例，然后是 62840...）。如果取满足条件的情况与排列总数之间的比率，我们会得到像 0.062825、0.062871、0.06284 等数字。

您可以看到这些值向 1/16=0.0625 (6.25%) 收敛，正如 @whuber 所指出的，这是随机抽取的给定值（16 个）在其中排名最高的概率。

对于新数据集，其中新值是次优值（即排名 2）：

6423
8552
6341
6410
6589
6134
6500
6746
8176
6264
6365
5930
6331
6012
5594

new value: 8202

我们得到（对于 N=1,000,000 排列）：125235, 124883... 有利的情况，再次近似于随机抽取的给定值（16 个中）在其中排名第二的概率：2/16= 0.125 (12.5%)。

其它你可能感兴趣的问题

上一篇如何将高维空间投影到二维平面？下一篇两样本 tt-test 与 Tukey 方法