一个正态随机样本的最小值超过另一个样本的最大值的概率是多少?

机器算法验证 可能性 正态分布
2022-03-27 18:03:08

的正态分布后数据点。然后我将样本分成两组)。中的所有值都大于中的任何值的概率是多少?nμ=0σ=1G1G2g1g2g1+g2=nG2G1

兴趣源于这样一个事实,即如果我分析一个由大量变量组成的庞大数据集,那么其中一些变量(如果我假设它们是独立的)可能具有重要意义的可能性是多少。

添加

感谢您的精彩回答和评论。我想,我错误地陈述了我的问题。我确切地知道如何将我的样本分成两组所以,划分不是随机的。G1G2

关于关于第一段和第二段之间联系的评论:如果我有一个大数据集,我想估计有多少变量可以随机表现“显着”(例如,如果我对每个变量应用单变量秩检验)。我从上述正态分布中采样每个变量。采样完成后,我总是以相同的方式将样本划分为最后,我可能会得到一个对应于个采样过程的表格,我将其分为组。一件事,我对小和几乎相等G1G2pn2ng1g2

3个回答

由于数据点是独立于连续分布绘制的,因此获得相等值的概率为,因此问题相当于“将最大值分配给组的概率是多少”。0g2G2

假设是常数并且随机分区成组与值无关,则所有分区成大小为的组的可能性相同,而恰好其中一个满足条件。因此概率为 g1g2(g1+g2g2)(g1,g2)

1(g1+g2g2)=g1!g2!(g1+g2)!.

我宁愿发表评论,但缺乏这样做的声誉。因此,这不是一个完整的答案。

相当于说“的最小成员大于的最大成员的概率是多少?”。这听起来像是订单统计的工作!如果您不熟悉,订单统计只是您的数据按大小排序(在维基百科上查找更长的解释。因此,一阶统计是最小值,在您的情况下,顺序statistic 是的最大值,同样, order statistic 是的最大值。G2G1g1thG1g2thG2

如果你愿意,你可以计算,对于 ... ...,这会给你的确切答案,概率都将非常小x1x2xg1G1y1y2yg2G2P(xg1<y1)g1g2n

您有来自同一总体的两个样本(假设您随机划分初始样本),这意味着随着样本的增长,您希望这两个样本中的每一个都与初始总体越来越相似。这意味着随着样本的增长,来自的所有值都大于的任何值的概率越来越接近无论分布如何,这都是正确的,因为随着样本的增长,您希望这两个样本彼此越来越相似。G1G2G2G10

您可以通过简单的模拟来展示这一点:

out <- list()

fun <- function(n) {
  X <- rnorm(n)
  index <- 1:(n/2)
  all(max(X[-index]) < X[index]) # we need to check only if all
                                 # the values are greater than max
}

for (n in c(4, 1e1, 1e2, 1e3, 1e4, 1e5, 1e6))
  out[[as.character(n)]] <- mean(replicate(1000, fun(n)))

as.data.frame(out)
##      X4   X10 X100 X1000 X10000 X1e.05 X1e.06
## 1 0.161 0.004    0     0      0      0      0