关于统计随机性的一些问题

机器算法验证 数理统计 随机生成
2022-02-08 04:07:35

来自维基百科的统计随机性

全局随机性和局部随机性是不同的。大多数关于随机性的哲学概念都是全局性的——因为它们基于这样一种观点,即“从长远来看”一个序列看起来确实是随机的,即使某些子序列看起来并不随机。例如,在具有足够长度的数字的“真正”随机序列中,很可能会有只有零的长序列,尽管总体上该序列可能是随机的。局部随机性是指可以存在近似随机分布的最小序列长度的想法。相同数字的长片段,即使是由“真正”随机过程生成的数字,也会降低样本的“局部随机性”(它可能仅对 10,000 个数字的序列是局部随机的;取少于 1,000 个数字的序列可能看起来不是随机的完全没有,例如)。

因此,不能证明显示出某种模式的序列在统计上不是随机的。根据拉姆齐理论的原理,足够大的物体必然包含一个给定的子结构(“完全无序是不可能的”)。

我不太明白这两个粗体句子的含义。

  1. 第一句话是否意味着某些东西使序列在更长的长度上是局部随机的,而不是在更短的长度上产生局部随机?

    括号内的示例如何工作?

  2. 第二句是否意味着不能证明显示模式的序列在统计上不是随机的?为什么?

谢谢

3个回答

一些可执行代码可以巧妙地说明这个概念。 我们开始 (in R) 使用一个好的伪随机数生成器来创建一个由 10,000 个 0 和 1 组成的序列:

set.seed(17)
x <- floor(runif(10000, min=0, max=2))

这通过了一些基本的随机数测试。 例如,将平均值与进行比较的 t 检验的 p 值为 %,这使我们能够接受零和一的可能性相等的假设。1/240.09

从这些数字中,我们继续提取从第 5081 个值开始1000

x0 <- x[1:1000 + 5080]

如果这些看起来是随机的,它们也应该通过相同的随机数测试。例如,让我们测试它们的平均值是否为 1/2:

> t.test(x0-1/2)

    One Sample t-test

data:  x0 - 1/2 
t = 2.6005, df = 999, p-value = 0.009445
alternative hypothesis: true mean is not equal to 0 
95 percent confidence interval:
 0.01006167 0.07193833 
sample estimates:
mean of x 
    0.041 

低 p 值(小于 1%)强烈表明平均值显大于确实,这个子序列的累计和有很强的上升趋势:1/2

> plot(cumsum(x0-1/2))

随意走动?

这不是随机行为!

将原始序列(绘制为累积总和)与该子序列进行比较可以揭示发生了什么:

随机游走

长序列确实表现得像随机游走——正如它应该的那样——但我提取的特定子序列包含相同长度的所有子序列中最长的向上上升。看起来我也可以提取其他一些表现出“非随机”行为的子序列,例如以为中心的子序列,其中连续出现大约 20 个子序列!9000


正如这些简单的分析所表明的,没有任何测试可以“证明”一个序列是随机的。我们所能做的就是测试序列是否足够偏离随机序列的预期行为,以提供它们不是随机的证据。 这就是随机数测试组的工作原理:它们寻找随机数序列中极不可能出现的模式。每隔一段时间,它们就会使我们得出这样的结论:真正随机的数字序列并不显得随机:我们会拒绝它并尝试其他方法。

不过,从长远来看——就像我们都死了一样——任何真正的随机数生成器都会生成每一个可能的 1000 位数字序列,并且它会无限次这样做。将我们从逻辑困境中解救出来的是,我们必须等待很长时间才能发生这种明显的异常。

该摘录使用术语“局部随机性”和“全局随机性”来区分随机变量的有限样本可能发生的情况,以及随机变量的概率分布或期望。

例如,具有期望的 Bernoulli 随机变量(取将随着 的样本数趋于无穷大,产生样本均值这来自大数定律。xi{0,1}θθlimn1ni=1nxi=θ

中得到各种值事实上,对于任何对于范围内的概率是有限的。[0,1][a,b]0a<b1θ

这里没有什么新鲜事。

然而,这段摘录似乎提出了一个相当明显的观点,即越大,我们就越有可能看到行为看起来“局部随机”,而“局部随机”被定义为(错误地)表现出接近平均值的模式(在这个例子中。) n

因此,考虑到这段摘录,我不会烧掉太多的脑细胞。它在数学上并不那么精确,实际上对随机性的性质具有误导性。

根据评论进行编辑:@kjetilbhalvorsen +1 对您的历史知识的评论。但是,我仍然认为这些术语的价值是有限的并且具有误导性。您所描述的表格似乎具有误导性的含义,例如,样本均值与实际预期值相差甚远,或者可能是不可能但肯定可能的长序列重复 0(在我的伯努利示例中),以某种方式表现出更少的随机性(通过说他们没有表现出这种虚假的“局部随机性”)。对于崭露头角的统计学家,我想不出比这更误导的事情了!

我认为维基百科帖子的作者误解了随机性。是的,可能有看起来不是随机的拉伸,但如果创建序列的过程是真正随机的,那么输出也必须是随机的。如果某些序列看起来是非随机的,那就是读者的错误感知(即人类被设计为寻找模式)。我们在夜空中看到北斗七星、猎户座等的能力并不能证明恒星的模式是非随机的。我同意随机性通常看起来是非随机的。如果一个过程为短序列生成真正的非随机模式,那么它就不是一个随机过程。

我不认为该过程在不同的样本量下会发生变化。你增加了样本量,你增加了我们看到一个在我们看来是非随机的随机序列的概率。如果我们有 10% 的机会在 20 次随机观察中看到一个模式,那么将观察总数增加到 10000 会增加我们在某处看到非随机性的可能性。