我下载了去年的工资。他们很可能遵循帕累托分布。直方图如下所示。
帕累托分布的 pdf 是αxmαxα+1.
尺度参数xm是54.5万美元,是去年最低的工资。我估计了形状参数,α,使用 MLE 为 0.7848238。这很重要,因为当α<2,那么分布没有方差。更准确地说,它的方差是未定义的。如果您的任何变量缺少均值或方差,那么您就不能使用任何使平方损失最小化的方法。
变量对数的分布确实存在方差,因此您可以对它们使用最小二乘法。这实际上是您教科书中的一个严重遗漏。有些事情,比如既没有均值也没有方差的股票市场回报,或者没有方差的棒球薪水,将使 OLS 模型毫无意义。日志本质上不是最好的处理方法,但它确实有效。
拿日志不会给你一个钟形。
这完全是为了确定您的所有数据都有差异。如果满足 OLS 的所有假设,则基本分布无关紧要。它们可能看起来很疯狂,但必须在任何地方定义差异。
编辑正如 Therkel 在评论中指出的那样α<1那么也不存在平均值。Cliff AB 的评论我也应该接受。他认为分布是双重有界的,因此存在有限的方差和均值。作为经济学家,我不同意这一点。世界上的财富确实只有这么多,但我们不知道它是什么也是事实。此外,随着人们做出个人选择,财富每时每刻都在变化。
如果那个苹果从未被采摘过,那么不采摘那个苹果的工人就会减少财富,并且无论如何都会减少可用的财富。树上的苹果在采摘和加工之前没有收入价值。这使得右侧约束是随机的。出于棒球的目的,应将随机效应视为零。
棒球,作为世界产出的百分比,是如此微不足道,以至于你可以忽略它。美式足球、北美曲棍球或整个美国的现场舞台剧院也是如此。
您可以使用帕累托分布对这些数据进行建模这一事实意味着,如果估计值有效,您就没有均值或方差。如果你取对数,你最终会得到有限的方差。如果你将数据除以其最小值并取对数,你最终会得到指数分布,它表现得很好,但是你会遇到解释问题。