以 m/s 为单位的速度是正态分布的,但表示为“10 米的时间”的相同数据不是

机器算法验证 正态分布 逆高斯分布
2022-01-29 13:45:58

我试图理解为什么相同的数据如果以一种方式表示可以呈正态分布,但如果以另一种方式表示则不能呈正态分布。

我有一个变量是“步行 10 米所需的时间”(以秒为单位)。该数据不是正态分布的(Shapiro-Wilk:W = 0.632,df = 108,Sig. <0.001,+参见下面的“直方图 1”)。

我将这个变量表示为“速度”(以米/秒为单位)。我通过将 10 米除以完成距离所需的时间来计算它(例如,完成 10 米所需的 14 秒变为 10/14 = 0.71 m/s)。

当我现在检查“速度”的正态性时,它是非常正态分布的(Shapiro-Wilk:W = 0.984,df = 108,Sig. = 0.234,+参见下面的“直方图 2”)。

我做错了什么,还是对此有合理的解释?在添加标签时,stackexchange 提到了“逆高斯分布”——这就是这里发生的事情吗?

直方图 1 直方图 2

2个回答

下图直观地说明了为什么转换后的变量具有不同的分布:

我画了两条平行线。

  • 在最低线上,我在处绘制了均匀间隔的点,它们代表速度0.1,0.2,...,1.1,1.2v
  • 在上面的线上,我根据公式绘制了点(注意我反转了左侧 1.2 和右侧 0 的轴)t=0.1/v

我已经绘制了连接不同点的线。您可以看到均匀分布的点没有转换为均匀分布的点vt,而是低值中的点比高值中的点更密集。

这种挤压也会发生在密度分布上。时间的分布不会与具有变换位置相反,您还会得到一个基于空间被拉伸或挤压多少的因素。tv

  • 例如:区域分布在区域上,这是一个更大的区域。因此,落入特定区域的相同概率会分散到更大尺寸的区域上。0.1<v<0.20.5<t<1

  • 另一个例子:区域被压缩到区域,这是一个较小的区域。因此,落入特定区域的相同概率会被压缩到尺寸较小的区域中。0.4<v<0.50.2<t<0.25

    在下图中这两个对应的区域并且密度曲线下的区域是彩色的,两个不同颜色的区域具有相同的面积大小0.4<v<0.50.2<t<0.25

因此,作为时间的分布,您不仅仅采用速度的分布,您可以在其中转换变量(这实际上已经使分布看起来与正态曲线不同,请参见图像中的绿色曲线),但您还考虑了概率质量在较大/较小区域上的传播/压缩。g(t)f(v)v=0.1/t

直观的解释

注意:我采用而不是,因为这使两个比例相同,并使两个密度的比较等效(当您挤压图像时,这会影响密度)。t=0.1/vt=100/v


查看更多关于转换的信息:

https://en.wikipedia.org/wiki/Random_variable#Functions_of_random_variables

更一般地,正态分布变量的倒数是:

t=a/vwithfV(v)=12πσ2e12(vμ)2σ2

then

gT(t)=12πσ2at2e12(a/tμ)2σ2

you can find more about it by looking for the search term 'reciprocal normal distribution' https://math.stackexchange.com/search?q=reciprocal+normal+distribution

It is not the same as 'inverse Gaussian distribution', which relates to the waiting time in relation to Brownian motion with drift (which can be described by a Gaussian curve).

Yes, this is an instance of inverse Gaussian. It has been observed that there is an inverse relationship between the cumulant generating function of the time to cover a unit distance and the cumulant generating function of the distance covered in a unit time. Because the distance covered in a unit time (in this case, walking speed) is approximately normal, then the time to cover a unit distance (which is roughly the first-hitting time of 1-dimensional Brownian particle) is by definition approximately inverse Gaussian.