机器算法验证 - 一个正态随机样本的最小值超过另一个样本的最大值的概率是多少？ - 吾爱随笔录

一个正态随机样本的最小值超过另一个样本的最大值的概率是多少？

机器算法验证可能性正态分布

2022-03-27 18:03:08

我和的正态分布后数据点。然后我将样本分成两组和，和（）。中的所有值都大于中的任何值的概率是多少？ $n$ $\mu = 0$ $\sigma = 1$ $G_1$ $G_2$ $g_1$ $g_2$ $g_1 + g_2 = n$ $G_2$ $G_1$

兴趣源于这样一个事实，即如果我分析一个由大量变量组成的庞大数据集，那么其中一些变量（如果我假设它们是独立的）可能具有重要意义的可能性是多少。

添加

感谢您的精彩回答和评论。我想，我错误地陈述了我的问题。我确切地知道如何将我的样本分成两组和。所以，划分不是随机的。 $G_1$ $G_2$

关于关于第一段和第二段之间联系的评论：如果我有一个大数据集，我想估计有多少变量可以随机表现“显着”（例如，如果我对每个变量应用单变量秩检验）。我从上述正态分布中采样每个变量。采样完成后，我总是以相同的方式将样本划分为和。最后，我可能会得到一个对应于个采样过程的表格，我将其分为组。一件事，我对小和几乎相等和。 $G_1$ $G_2$ $p$ $n$ $2$ $n$ $g_1$ $g_2$

3个回答

由于数据点是独立于连续分布绘制的，因此获得相等值的概率为，因此问题相当于“将最大值分配给组的概率是多少”。 $0$ $g_2$ $G_2$

假设和是常数并且随机分区成组与值无关，则所有分区成大小为的组的可能性相同，而恰好其中一个满足条件。因此概率为 $g_1$ $g_2$ ${{g_1+g_2}\choose{g_2}}$ $(g_1,g_2)$

\frac{1}{(\binom{g_{1} + g_{2}}{g_{2}})} = \frac{g_{1}! g_{2}!}{(g_{1} + g_{2})!} .

$\begin{equation} \frac{1}{{g_1+g_2}\choose{g_2}} = \frac{g_1!\,g_2!}{(g_1+g_2)!}. \end{equation}$

我宁愿发表评论，但缺乏这样做的声誉。因此，这不是一个完整的答案。

相当于说“的最小成员大于的最大成员的概率是多少？”。这听起来像是订单统计的工作！如果您不熟悉，订单统计只是您的数据按大小排序（在维基百科上查找更长的解释。因此，一阶统计是最小值，在您的情况下，顺序statistic 是的最大值，同样， order statistic 是的最大值。 $G_2$ $G_1$ $g_1^{th}$ $G_1$ $g_2^{th}$ $G_2$

如果你愿意，你可以计算，对于， ...从和， ...从，，这会给你和的确切答案。，概率都将非常小。 $x_1$ $x_2$ $x_{g_1}$ $G_1$ $y_1$ $y_2$ $y_{g_2}$ $G_2$ $P(x_{g_1} < y_1)$ $g_1$ $g_2$ $n$

您有来自同一总体的两个样本和（假设您随机划分初始样本），这意味着随着样本的增长，您希望这两个样本中的每一个都与初始总体越来越相似。这意味着随着样本的增长，来自的所有值都大于的任何值的概率越来越接近。无论分布如何，这都是正确的，因为随着样本的增长，您希望这两个样本彼此越来越相似。 $G_1$ $G_2$ $G_2$ $G_1$ $0$

您可以通过简单的模拟来展示这一点：

out <- list()

fun <- function(n) {
  X <- rnorm(n)
  index <- 1:(n/2)
  all(max(X[-index]) < X[index]) # we need to check only if all
                                 # the values are greater than max
}

for (n in c(4, 1e1, 1e2, 1e3, 1e4, 1e5, 1e6))
  out[[as.character(n)]] <- mean(replicate(1000, fun(n)))

as.data.frame(out)
##      X4   X10 X100 X1000 X10000 X1e.05 X1e.06
## 1 0.161 0.004    0     0      0      0      0

其它你可能感兴趣的问题

上一篇三个圣诞布丁中的每一个都恰好有 2 个硬币的概率下一篇我们必须在交叉验证中进行特征选择吗？