在统计学中的重要性是什么?e-X2e−x2

机器算法验证 正态分布
2022-02-11 07:44:53

在我的微积分课中,我们遇到了函数或“钟形曲线”,有人告诉我它在统计学中经常应用。ex2

出于好奇,我想问一下:函数在统计学中真的很重要吗?如果是这样,是什么让有用,它的一些应用是什么?ex2ex2

我在互联网上找不到有关该函数的太多信息,但在进行了一些研究之后,我发现了一般的钟形曲线和所谓的正态分布之间的联系。维基百科页面这些类型的函数链接到统计应用程序,并由我突出显示,其中指出:

“正态分布被认为是统计学中最突出的概率分布。这有几个原因:1首先,正态分布源于中心极限定理,它指出在温和的条件下,抽取大量随机变量的总和来自相同分布的分布近似正态分布,而与原始分布的形式无关。”

因此,如果我从某种调查等中收集大量数据,它们可以平均分布在诸如之类的函数中吗?该函数是对称的,它的对称性也是对称的,即它对正态分布的有用性,是什么使它在统计学中如此有用?我只是推测。ex2

一般来说,什么使在统计中有用?如果正态分布是唯一的区域,那么是什么使在正态分布中的其他高斯类型函数中独一无二或特别有用?ex2ex2

4个回答

这个函数很重要的原因确实是正态分布及其密切相关的伙伴中心极限定理(我们在此处的其他问题中对 CLT 有一些很好的解释)。

在统计学中,CLT 通常可用于近似计算概率,使诸如“我们有 95% 的信心……”之类的陈述成为可能(“95% 的信心”的含义经常被误解,但那是另一回事)。

函数是正态分布的密度函数(缩放版本)。如果可以使用正态分布对随机量进行建模,则此函数描述了该量的不同可能值的可能性。高密度地区的结果比低密度地区的结果更有可能。exp((xμ)22σ2)

μ是确定密度函数的位置和尺度的参数。它关于是对称的,所以改变意味着您将函数向右或向左移动。确定密度函数在其最大值 (远离时它以多快的速度变为 0 从这个意义上说,改变会改变函数的尺度。σμμσx=μxμσ

对于特定的选择密度是(成比例)这不是这些参数的一个特别有趣的选择,但它的好处是产生的密度函数看起来比所有其他参数都稍微简单一些。μ=0σ=1/2ex2

另一方面,我们可以到任何其他正态密度你的教科书说而不是的原因是非常重要的功能是更容易编写。ex2x=uμ2σex2exp((xμ)22σ2)ex2

你是对的,正态分布或高斯分布是一个缩放和移动的,所以 \exp (-x^2) 的重要性来自它本质上是正态分布的事实。exp(x2)exp(x2)

正态分布很重要,主要是因为(“在温和的正则性条件下”)当“许多”接近无穷大时,许多独立且相同分布的随机变量的总和接近正态分布。

并非所有事物都是正态分布的。例如,您的调查结果可能不是,至少如果响应甚至不是连续规模,而是类似于整数 1-5。但是结果的平均值在重复抽样中呈正态分布,因为平均值只是一个缩放(归一化)和,并且各个响应彼此独立。当然,假设样本足够大,因为严格来说,只有当样本的大小变得无限大时,才会出现正态性。

正如您从示例中看到的,正态分布可能会作为估计或建模过程的结果出现,即使数据不是正态分布也是如此。因此,正态分布在统计中无处不在。在贝叶斯统计中,许多参数的后验分布近似正态分布,或者可以假设为正态分布。

该函数的独特之处在于其频谱密度(傅里叶变换)与函数本身相同。这意味着当它被适当地缩放为概率密度函数(PDF)时,它的矩生成函数(MGF)和特征函数(CF)具有相同的形式和缩放:

  • PDF:,它是高斯(正常)PDF1sπex2/2
  • MGF:1sπet2/2
  • CF:1sπet2/2

这导致了无穷无尽的惊人影响。我会给你我最喜欢的:量子力学中的不确定性原理

正如您可能在量子力学中听说过的那样,粒子由它们的波函数表示。波函数幅度的平方基本上是一个 PDF,即表示粒子在附近的概率。因此,量子力学与概率论密切相关。ψ(x) |ψ(x)|2x

您可能还听说过,在量子力学中,不可能同时准确地检测到粒子的位置及其速度(动量)如果你知道粒子的确切位置,你将无法确定它的速度。如果你知道粒子移动的速度,你就不会知道它在哪里。如果您知道频谱分析,那么您应该知道完美的正弦波不是局部的,它跨越这里的原理是一样的。xp<x<

这在不确定性原理中得到体现,有时近似表示为的波函数用正态分布 PDF 表示时,量最小的,即你的函数!难怪它也是所有方差为1的熵最大的概率分布。ΔxΔp2ΔxΔpψ(x)

所以,只是想向你解释一个例子,我不得不参考概率论和统计学中的几个基本概念 PDF、CF、谱分析、熵等。那是因为无论你在统计学中做什么,这个函数都潜伏在附近的某个地方。

CLT的一个版本告诉我们,随着总和 ( ) 中的变量数量变大,独立同分布随机变量的平均值分布将开始看起来像正态分布。当平均值适当归一化时,正式的数学收敛发生在分布的温和条件下。这将适用于各种形状的大多数人口分布,包括伽马三角形均匀贝塔卡方,甚至像伯努利这样的离散分布n. 这使得通过测试假设或基于近似正态分布构建置信区间来轻松推断基于随机样本的分布均值。的速率变为,所以均值实际上会收敛到退化分布,其所有概率质量都在总体均值处。因此,收敛到正常的适当归一化需要重新定位并乘以还有其他统计数据也趋于正常。正态分布可用于近似各种检验统计量的分布这一事实01/nn是它在统计学中突出的原因。