机器算法验证 - 对数转换后计算标准差 - 吾爱随笔录

对数转换后计算标准差

机器算法验证方差对数正态分布

2022-04-09 06:48:22

我有几个具有高度偏度的数据集（许多分散在接近于零的位置）。

应用对数转换使大多数数据集呈正态分布。

但是现在我如何计算对数转换数据集的方差？

看来我必须转换回来，因为直接在转换后的数据上计算它会低估它。但是我会失去正常的形状分布，使方差计算变得更加困难。

1个回答

几种方法：

(i) 您可以根据需要以通常的方式估计原始和对数刻度的均值和标准差。但是，它们可能不一定是未转换数据上最有效的方法（两组估计也不一定彼此非常一致）

(ii) 通过参数假设——你说的是对数尺度 $X=\log Y$ 分布近似正态分布。如果您假设对数的正态性，则您对 $\mu$ 和 $\sigma^2$ 对数尺度上的参数（实际上通常的估计是最大似然），这些参数也是 $\mu$ 和 $\sigma^2$ 您开始使用的对数正态参数（但这些不是对数正态的均值和方差）。

您可以很容易地根据这些参数得出对数正态的均值和方差，但我只给出它们：

$E(Y) = e^{\mu+\frac12 \sigma^2}$

$\text{Var}(Y) = E(Y)^2\, (e^{\sigma^2}-1)$

您通过取平方根来获得标准偏差。

与 MLE 的通常情况一样，这些估计并不是无偏的（当然它们仍然是一致的）。如果您特别关心无偏性，您可能需要对小样本进行一些校正——尽管我经常使用对数正态模型，并且通常只对主要感兴趣的数量坚持使用 MLE。

因此，如果您使用这些方程来获得原始变量的均值和方差的估计值，您将获得参数的 ML 估计值。

（iii）您可以避免假设并使用泰勒展开来获得一个方向或另一个方向的近似矩（尽管如果您在对数中具有接近正态性，那么在对数尺度上进行估计并转换回来更有意义。

其它你可能感兴趣的问题

上一篇Levene的测试是必要的吗？下一篇准确度和精确度有什么区别？