解释自然对数转换数据的标准差

机器算法验证 标准差 对数正态分布 反向转换
2022-03-16 04:11:14

我有兴趣解释(反向转换)一个标准偏差(sd)增加对非转换变量的对数转换的影响。

所以假设我有一个变量 Y:

Y= # of likes

ln(Y)= log transformed # of likes

mean(ln(Y))=7.7

sd(ln(Y))=0.8

现在我想将 sd(ln(Y)) 与未转换的单位 Y 相关联。换句话说,有多少 (#) 喜欢是对数转换单位的一个标准偏差增加 (sd(ln(Y)) =0.8) 等于?

我想也许我可以简单地将转换后的数据平均值的变化与标准单位进行比较)并使用指数函数进行反向转换

e^(7.7+0.8)- e^(7.7)≈2706

因此,对数转换变量的一个标准差增加转化为 2,706 个喜欢。这个可以吗?或者我应该使用另一个公式来计算这个?

3个回答

你最后一段中提出的解释是不正确的——增加只适用于平均值如果你开始较低,这将是一个较小的增加,如果你开始较高,它将是一个更大的增加。

ea+0.8ea=ea(e0.81)1.2255ea

最好从百分比增长的角度来考虑。

ea+0.8eaea1.2255,或大约增加 122.5%。

但是,我担心您使用日志的计数可能为零(“喜欢”的计数)。

因此,对数转换变量的一个标准差增加转化为 2,706 个喜欢。这个可以吗?

您小心地使用“增加对数转换变量”限定词来制定您的陈述。我认为这消除了读者可能会产生的误解,他们可能会认为您正在尝试计算的标准差。你显然不想那样您使用“翻译”一词,这不是标准术语,因此表明您没有转换变量并通过“标准”手段转换这些变量之间的统计信息。Y

将您的过程与“ SAS/ETS 12.1 用户指南”,第 252 页中的描述进行比较

对数变换通常用于将关于创新方差非平稳的时间序列转换为平稳时间序列。通常的方法是在 DATA 步骤中获取系列的日志,然后将 PROC ARIMA 应用于转换后的数据。然后使用 DATA 步将日志的预测转换回原始测量单位。置信限也通过使用指数函数进行转换

突出显示的 [by me] 句子本质上描述了您在做什么。

因此,您所做的并没有错,它是否正确是一个有趣的问题。这取决于解释和预期用途。

另一件事 (c)原始变量的均值估计量不一定是我在这里使用的是软语言,因为有这个看似明显的估计器 它基于对数正态分布的精确关系: YelnY¯

μ^Y=exp(μ^lnY+σ^lnY2/2)
E[Y]=exp(E[lnY]+σlnY2/2)

然而,这个估计器在实践中并不总是最好的,因为方差是未知的,必须进行估计。一旦开始使用方差估计器,事情就会变得复杂,如 Helmut Lutkepohl 和 Fang Xu 的实证论文所示。对数变换在预测经济变量中的作用。” 实证经济学,42(3):619{638, 2012.σlnY2

在这种情况下,以下简单的均值估计量最终可能是最好的: \hat\ mu_Y

μ^Y=exp(μ^lnY)

我去写手段是因为当你谈论标准差增加的“翻译”时,你需要提到什么是基数。您相当隐含地假设增加是从上面的幼稚估计器的角度出发的。正如我所写的,这并没有错,但是您必须清楚地说明这是您使用的,否则您的读者可能会认为您正在纠正差异,或者 2,706 个喜欢的增加来自任何时候(这是正确的)。例如,如果你将方程应用于以 0 为底,你会得到

e0+0.8e0=2.2

如果我理解,您需要 Y 的标准差。 Y 的标准差不容易从mean(ln(Y))和计算sd(ln(Y)),因此您的公式不正确。简单的解决方案是在计算 Y 的标准差时忽略对数变换:即sd(Y)sd(e^ln(Y))