机器算法验证 - 以 m/s 为单位的速度是正态分布的，但表示为“10 米的时间”的相同数据不是 - 吾爱随笔录

以 m/s 为单位的速度是正态分布的，但表示为“10 米的时间”的相同数据不是

机器算法验证正态分布逆高斯分布

2022-01-29 13:45:58

我试图理解为什么相同的数据如果以一种方式表示可以呈正态分布，但如果以另一种方式表示则不能呈正态分布。

我有一个变量是“步行 10 米所需的时间”（以秒为单位）。该数据不是正态分布的（Shapiro-Wilk：W = 0.632，df = 108，Sig. <0.001，+参见下面的“直方图 1”）。

我将这个变量表示为“速度”（以米/秒为单位）。我通过将 10 米除以完成距离所需的时间来计算它（例如，完成 10 米所需的 14 秒变为 10/14 = 0.71 m/s）。

当我现在检查“速度”的正态性时，它是非常正态分布的（Shapiro-Wilk：W = 0.984，df = 108，Sig. = 0.234，+参见下面的“直方图 2”）。

我做错了什么，还是对此有合理的解释？在添加标签时，stackexchange 提到了“逆高斯分布”——这就是这里发生的事情吗？

2个回答

下图直观地说明了为什么转换后的变量具有不同的分布：

我画了两条平行线。

在最低线上，我在处绘制了均匀间隔的点，它们代表速度。 $0.1, 0.2, ..., 1.1, 1.2$ $v$
在上面的线上，我根据公式绘制了点（注意我反转了左侧 1.2 和右侧 0 的轴） $t=0.1/v$

我已经绘制了连接不同点的线。您可以看到均匀分布的点没有转换为均匀分布的点 $v$ $t$ ，而是低值中的点比高值中的点更密集。

这种挤压也会发生在密度分布上。时间的分布不会与具有变换位置相反，您还会得到一个基于空间被拉伸或挤压多少的因素。 $t$ $v$

例如：区域分布在区域上，这是一个更大的区域。因此，落入特定区域的相同概率会分散到更大尺寸的区域上。 $0.1 < v < 0.2$ $0.5 < t <1$
另一个例子：区域被压缩到区域，这是一个较小的区域。因此，落入特定区域的相同概率会被压缩到尺寸较小的区域中。 $0.4 < v < 0.5$ $0.2 < t <0.25$

在下图中这两个对应的区域和并且密度曲线下的区域是彩色的，两个不同颜色的区域具有相同的面积大小。 $0.4 < v < 0.5$ $0.2 < t <0.25$

因此，作为时间的分布，您不仅仅采用速度的分布，您可以在其中转换变量（这实际上已经使分布看起来与正态曲线不同，请参见图像中的绿色曲线），但您还考虑了概率质量在较大/较小区域上的传播/压缩。 $g(t)$ $f(v)$ $v=0.1/t$

注意：我采用而不是，因为这使两个比例相同，并使两个密度的比较等效（当您挤压图像时，这会影响密度）。 $t=0.1/v$ $t = 100/v$

更一般地，正态分布变量的倒数是：

t = a / v with f_{V} (v) = \frac{1}{\sqrt{2 π σ^{2}}} e^{- \frac{1}{2} \frac{(v - μ)^{2}}{σ^{2}}}

$t = a/v \quad \text{with} \quad f_V(v) = \frac{1}{\sqrt{2 \pi \sigma^2}} e^{-\frac{1}{2}\frac{(v-\mu)^2}{\sigma^2}}$

then

g_{T} (t) = \frac{1}{\sqrt{2 π σ^{2}}} \frac{a}{t^{2}} e^{- \frac{1}{2} \frac{(a / t - μ)^{2}}{σ^{2}}}

$g_T(t) = \frac{1}{\sqrt{2 \pi \sigma^2}} \frac{a}{t^2} e^{-\frac{1}{2}\frac{(a/t-\mu)^2}{\sigma^2}}$

you can find more about it by looking for the search term 'reciprocal normal distribution' https://math.stackexchange.com/search?q=reciprocal+normal+distribution

It is not the same as 'inverse Gaussian distribution', which relates to the waiting time in relation to Brownian motion with drift (which can be described by a Gaussian curve).

Yes, this is an instance of inverse Gaussian. It has been observed that there is an inverse relationship between the cumulant generating function of the time to cover a unit distance and the cumulant generating function of the distance covered in a unit time. Because the distance covered in a unit time (in this case, walking speed) is approximately normal, then the time to cover a unit distance (which is roughly the first-hitting time of 1-dimensional Brownian particle) is by definition approximately inverse Gaussian.

其它你可能感兴趣的问题

上一篇套索与自适应套索下一篇什么回归/估计不是 MLE？