方差XX和方差日志( X)log⁡(X). 如何将它们联系起来?

机器算法验证 方差 对数正态分布
2022-03-22 18:41:02

我有一个随机变量的方差X我想获得方差log(X). 如果我不知道它的PDF,有可能吗?如果我假设X有一个对数正态 PDF,方差应该如何关联?

2个回答

delta 方法在这里非常有用。使用关于平均值的一阶泰勒级数近似X

log(X)log(E[X])+(XE[X])E[X]
所以,在我们考虑了双方的期望和差异之后,

  • E[log(X)]log(E[X])
  • V[log(X)]E[X]2V[X].

这与方差稳定的思想有关;如果回归中的因变量具有与均方成正比的方差,则取该因变量的对数会产生具有恒定方差的东西,这通常是理想或必要的假设。

评论对数正态分布和正态分布。

当您记录值时,数据的方差往往会减小。也许最常见的情况是,如果X1是对数正态的,那么X2=ln(X1)是正常的,它的方差小于X.1此外,如果它存在,X3=ln(X2)可能有更小的方差。

下面我们从一个随机样本(使用 R)开始n=104来自带参数的对数正态分布的观察值μ=50,σ=2.(习惯上使用与相关正态分布的参数匹配的对数正态参数。有关详细信息,您可以查看维基百科的“对数正态分布”。)我们显示了分布的均值和标准差X1,X2,X3.

set.seed(720); n = 10^4
x2 = rnorm(n, 50, 2);  x1 = exp(x2);  x3 = log(x2)
mean(x1); mean(x2); mean(x3)
[1] 3.686093e+22
[1] 50.01289         # aprx E(X2) = 50
[1] 3.911481
sd(x1); sd(x2); sd(x3)
[1] 2.308712e+23
[1] 1.997261         # aprx SD(X2) = 2
[1] 0.04004551

然后我们显示三个样本的直方图。在左边,请注意很难制作一个信息丰富的直方图X1因为它严重向右倾斜。在中心面板中,我们覆盖了密度函数Norm(μ=50,σ=2);这是对称的。在右侧,请注意再次获取(自然)日志会导致略微左偏的分布。

在此处输入图像描述

注:(1)对数正态分布的支持度为(0,). 正态分布可能取负值。如果对数正态分布被截断为(1,)使得正态分布被截断为(0,),那么存在该“正态”分布的自然对数。分布Norm(50,2)下面几乎没有概率0,所以在这个例子中截断几乎没有实际效果。

(2)上图的R代码:

par(mfrow=c(1,3))
hist(x1, prob=T, br=50, col="skyblue2")
hist(x2, prob=T, col="skyblue2")
  curve(dnorm(x,50,2), add=T, col="red")
hist(x3, prob=T, col="skyblue2")
par(mfrow=c(1,1)) 

(3) 但是,取对数会产生较小的方差并不总是正确的。如果X2Unif(0,1),X1=eX2,X3=ln(X2),然后与对数正态示例代码类似的 R 代码给出以下结果:

set.seed(720); n = 10^5
x2 = runif(n);  x1 = exp(x2);  x3 = log(x2)
var(x1); var(x2); var(x3)
[1] 0.2411124
[1] 0.08316279  # aprx V(X2) = 1/12
[1] 1.01091

在此处输入图像描述