究竟什么是时刻?它们是如何派生的?

机器算法验证 数理统计 对数正态分布 时刻 矩量法
2022-02-01 06:47:54

我们通常通过“将总体矩与其样本对应物相等”来介绍矩估计方法,直到我们估计了所有总体参数;因此,在正态分布的情况下,我们只需要一阶矩和二阶矩,因为它们完全描述了这个分布。

E(X)=μi=1nXi/n=X¯

E(X2)=μ2+σ2i=1nXi2/n

我们理论上可以计算多达额外的时刻:n

E(Xr)i=1nXir/n

我如何才能对真正的时刻建立直觉?我知道它们作为一个概念存在于物理学和数学中,但我发现它们都不能直接适用,尤其是因为我不知道如何将质量概念抽象为数据点。该术语似乎在统计学中以特定方式使用,这与其他学科的用法不同。

我的数据的什么特征决定了总共有多少 ( ) 个时刻?r

4个回答

我已经很久没有上物理课了,所以如果有任何不正确的地方,请告诉我。

用物理类比对矩的一般描述

取一个随机变量周围的第个矩是: 这正好对应于一个矩的物理意义。想象为沿实线的点集合,密度由 pdf 给出。处放置一个支点,并开始计算相对于该支点的矩,计算将与统计矩完全对应。XnXc

mn(c)=E[(Xc)n]
Xc

大多数时候个矩是指 0 附近的时刻(支点位于 0 的时刻): 中心是: 这对应于支点位于质心的时刻,因此分布是平衡的。正如我们将在下面看到的那样,它可以更容易地解释时刻。第一个中心矩总是为零,因为分布是平衡的。nX

mn=E[Xn]
nX
m^n=mn(m1)=E[(Xm1)n]

的第标准化是: 同样,这通过分布的传播来缩放矩,从而更容易解释峰度。第一个标准化时刻将始终为零,第二个标准化时刻将始终为 1。这对应于变量的标准得分(z-score)的时刻。对于这个概念,我没有很好的物理模拟。nX

m~n=m^n(m^2)n=E[(Xm1)n](E[(Xm1)2])n

常用时刻

对于任何分布,都可能存在无限数量的矩。足够的矩几乎总是会完全表征和分布(得出确定这一点的必要条件是矩问题的一部分)。统计中经常谈论四个时刻:

  1. 平均值- 第一个时刻(以零为中心)。它是分布的质心,或者它与分布相对于支点为 0 的力矩的力矩成正比。
  2. 方差- 第二个中心矩。解释为表示的分布展开的程度。它对应于在其支点上平衡的分布的转动惯量。X
  3. 偏度- 第三个中心矩(有时是标准化的)。衡量分布在一个方向或另一个方向上的偏斜度。相对于正态分布(没有偏斜),正偏态分布极低结果的概率很低,负偏态分布极低结果的概率很小。物理类比是困难的,但它松散地测量分布的不对称性。例如,下图取自维基百科偏度,取自维基百科
  4. 峰度- 第 4 个标准化矩,通常是过度峰度,第 4 个标准化矩减去三。峰度测量相对于尾部将更多概率置于分布中心的程度。较高的峰度意味着与平均值的较大偏差的频率较低,而较小的偏差则较频繁。它通常相对于正态分布进行解释,正态分布的第 4 个标准化矩为 3,因此过度峰度为 0。这里的物理模拟更加困难,但在下图中,取自 Wikipedia,峰值较高的分布有更大的峰度。 X峰度,也来自维基百科

我们很少谈论超出峰度的时刻,正是因为对它们几乎没有直觉。这类似于物理学家在第二个时刻后停止。

这是一个有点老的线程,但我希望纠正 Fg Nu 在评论中的错误陈述,他写道“矩由自然数参数化,并完全表征分布”。

矩不能完全表征分布。具体来说,所有无限数量的矩的知识,即使它们存在,也不一定唯一地确定分布。

根据我最喜欢的概率书 Feller“概率论及其应用简介第二卷”(请参阅​​我在常见分布的真实示例中的回答),第 227-228 页的第 VII.3 节示例,未确定对数正态由它的矩来表示,这意味着还有其他分布具有与对数正态相同的无限数量的矩,但分布函数不同。众所周知,对数正态不存在矩生成函数,对于具有相同矩的其他分布也不存在。

如第 4 页所述。228,一个本质上非零的随机变量由它的矩决定,如果它们都存在并且X

n=1(E[X2n])1/(2n)

分歧。请注意,这不是当且仅当。此条件不适用于对数正态,实际上它不是由它的矩决定的。

另一方面,共享所有无限数量的矩的分布(随机变量)只能相差这么多,因为可以从它们的矩中推导出不等式。

Glen_b 评论的一个推论是,第一个矩,平均值,对应于一个物理对象的重心,而围绕平均值的第二个矩,方差,对应于它的惯性矩。在那之后,你就靠自己了。

二叉树有两个分支,每个分支的概率为 0.5。实际上,p=0.5,q=1-0.5=0.5。这会生成具有均匀分布概率质量的正态分布。

实际上,我们必须假设树中的每一层都是完整的。当我们将数据分成箱时,我们会从除法中得到一个实数,但我们会四舍五入。嗯,这是一个不完整的层,所以我们最终不会得到一个接近正常值的直方图。

将分支概率更改为 p=0.9999 和 q=0.0001,这让我们得到一个偏斜的法线。概率质量发生了变化。这解释了偏度。

具有小于 2^n 的不完整层或箱会生成具有没有概率质量的区域的二项式树。这给了我们峰度。


回复评论:

当我谈论确定箱的数量时,四舍五入到下一个整数。

Quincunx 机器掉落的球最终通过二项式近似于正态分布。这样的机器做了几个假设:1)箱的数量是有限的,2)底层树是二叉的,3)概率是固定的。纽约数学博物馆的 Quincunx 机器让用户可以动态改变概率。概率可以随时改变,甚至在当前层完成之前。因此,关于垃圾箱未装满的想法。

与我在原始答案中所说的不同,当你在树中有一个空洞时,分布表现出峰度。

我从生成系统的角度来看这个。我用一个三角形来总结决策树。当做出新的决定时,会在三角形的底部添加更多的 bin,就分布而言,在尾部添加更多的 bin。从树中修剪子树会在分布的概率质量中留下空白。

我只是回复给你一个直观的感觉。标签?我使用了 Excel 并使用了二项式中的概率并生成了预期的偏差。我没有对峰度这样做,在使用暗示运动的语言时,我们被迫将概率质量视为静态的,这无济于事。基础数据或球会导致峰态。然后,我们对其进行各种分析,并将其归因于形状描述性术语,如中心、肩部和尾部。我们唯一需要处理的是垃圾箱。即使数据不能,垃圾箱也过着动态​​的生活。