记录变量的日志

机器算法验证 中心极限定理 对数
2022-04-18 08:03:18

就在我开始这个问题之前,我希望大家知道我已经检查了其他线程以获取变量日志,但我仍然认为我还有一个尚未涉及的问题。我还要感谢 whuber 在这里对另一个日志问题的冗长回答。

这个问题特别涉及我们为什么要记录日志的原因之一,即转换数据的分布。当我们取一个变量的对数时,通常是因为变量的分布是倾斜的,我们希望给它一个正态分布。经济学 OLS 回归中的一个常见示例是表示工资、收入、GDP 等的变量。然而,似乎没有人提到中心极限定理 (CLT)。CLT 说许多随机变量的总和将是正态分布的,即使它们的基础分布不是正态分布的。如果误差是随机变量的总和, ,那么无论XYϵ=YXβX如果这成立(并且 CLT 似乎在相当弱的条件下成立)那么我们为什么需要转换变量?Y

2个回答

你可能会觉得这个展示很有趣:

这些是具有十个 x 变量 (IV) 的线性回归的残差、偏态误差分布(但所有矩都是有限的,CLT 肯定适用!)和 1000 个观察值(即数据是模拟的)。

这是一个正常的 qqplot,如果残差接近正常,它应该看起来相当接近一条直线。

偏态误差分布的正态 qq 图

很明显,这看起来不太正常!残差仍然相当偏斜。

好吧,也许我没有足够的变量。这是 100 个 x 变量的一个:

对数正态 qq 图,p=100

情节非常相似 - 仍然非常倾斜。

因此,在 n=1000 和 p=100 的情况下,我们看不到您所说的我们应该看到的任何东西。

根据您的评论,Lindberg-Feller CLT 需要独立性(但不是同分布),以及有限的均值和方差。您确定“根据定义,Y 不能[独立],但所有回归都是这种情况”部分不会扼杀您的论点吗?仅仅因为它在定义上是正确的并不意味着它不是正确的(或适用的)。