塔勒布的书《黑天鹅》几年前出版时是《纽约时报》的畅销书。这本书现在已经是第二版了。在 JSM(年度统计会议)上与统计学家会面后,塔勒布稍微缓和了他对统计的批评。但这本书的主旨是统计数据不是很有用,因为它依赖于正态分布和非常罕见的事件:“黑天鹅”没有正态分布。
你认为这是有效的批评吗?Taleb 是否遗漏了统计建模的一些重要方面?至少在可以估计发生概率的意义上,是否可以预测罕见事件?
塔勒布的书《黑天鹅》几年前出版时是《纽约时报》的畅销书。这本书现在已经是第二版了。在 JSM(年度统计会议)上与统计学家会面后,塔勒布稍微缓和了他对统计的批评。但这本书的主旨是统计数据不是很有用,因为它依赖于正态分布和非常罕见的事件:“黑天鹅”没有正态分布。
你认为这是有效的批评吗?Taleb 是否遗漏了统计建模的一些重要方面?至少在可以估计发生概率的意义上,是否可以预测罕见事件?
几年前我读过《黑天鹅》。黑天鹅的想法很好,对滑稽谬误的攻击(将事物视为骰子游戏,具有可知的概率)很好,但统计数据被严重歪曲,核心问题是错误地声称所有统计数据都会崩溃,如果变量不是正态分布的。我对这方面感到非常恼火,于是给塔勒布写了下面的信:
亲爱的塔勒布博士
最近看了《黑天鹅》。和你一样,我是 Karl Popper 的粉丝,我发现自己同意其中的很多内容。我认为你对 ludic 谬误的阐述基本上是合理的,并引起了人们对一个真实而普遍的问题的关注。然而,我认为第三部分的大部分内容都严重削弱了你的整体论点,甚至可能会抹黑本书的其余部分。这是一种耻辱,因为我认为关于黑天鹅和“未知的未知数”的论点是基于它们的优点,而不依赖于第三部分中的一些错误。
我想指出的主要问题 - 并寻求您的回应,特别是如果我误解了问题 - 是您对应用统计领域的错误陈述。在我看来,第 14、15 和 16 章很大程度上依赖于稻草人的论点,歪曲了统计数据和计量经济学。你描述的计量经济学领域不是我在学习应用统计学、计量经济学和精算风险理论时所学的领域(在澳大利亚国立大学,但使用的课本似乎很标准)。您提出的问题(例如高斯分布的局限性)得到了很好的理解和教学,即使在本科阶段也是如此。
例如,您竭尽全力展示收入分配如何不遵循正态分布,并将其作为反对一般统计实践的论据。没有一个称职的统计学家会声称它确实如此,并且处理这个问题的方法已经很成熟了。仅使用最基本的“第一年计量经济学”级别的技术,例如,通过取其对数来转换变量将使您的数值示例看起来不那么令人信服。这样的转换实际上会使您所说的大部分内容无效,因为原始变量的方差确实会随着其均值的增加而增加。
我敢肯定,有些不称职的计量经济学家会按照您所说的方式使用未转换的响应变量进行 OLS 回归等,但这只会使他们不称职,并且使用了公认的不合适的技术。即使在本科课程中,他们肯定也会失败,因为本科课程花费大量时间寻找更合适的方法来模拟收入等变量,以反映实际观察到的(非高斯)分布。
广义线性模型系列是为解决您提出的问题而开发的一组技术。许多指数分布族(例如 Gamma、Exponential 和 Poisson 分布)是不对称的,并且随着分布中心的增加,方差也会增加,从而解决您使用高斯分布指出的问题。如果这仍然过于局限,则可以完全放弃预先存在的“形状”并简单地指定分布的均值与其方差之间的关系(例如,允许方差与均值的平方成比例地增加),使用“准似然”估计方法。
当然,您可能会争辩说,这种建模形式仍然过于简单化,是一个让我们误以为未来会像过去一样的智力陷阱。你可能是对的,我认为你的书的力量是让像我这样的人考虑这一点。但是你需要与你在第 14-16 章中使用的不同的论点。例如,无论其均值如何(这会导致可伸缩性问题),您对高斯分布的方差是恒定的这一事实的重视是无效的。您对现实生活中的分布往往是不对称的而不是钟形曲线这一事实的强调也是如此。
基本上,您已经对最基本的统计方法进行了过度简化(将原始变量建模为具有高斯分布),并详细地(正确地)展示了这种过度简化方法的缺点。然后你用它来制造差距来抹黑整个领域。这要么是逻辑上的严重失误,要么是一种宣传手法。这是不幸的,因为它有损于你的整体论点,其中大部分(正如我所说的)我认为是有效和有说服力的。
我很想听听你的回应。我怀疑我是第一个提出这个问题的人。
此致
体育
我没有读过这本书,但正如所说的那样,批评对我来说似乎很不合理。如果极端事件很重要,那么统计学在工具箱中有适当的工具,例如极值理论,一个好的统计学家会知道如何使用它们(或者至少知道如何使用它们,并且会充分参与要查看的分析)。批评似乎是“统计数据很糟糕,因为有些糟糕的统计学家只知道正态分布”。
我确实读过《黑天鹅》,我确实喜欢它,而且我是一名统计学家。我根本没有发现它的“对统计数据的批评”令人难以忍受。逐点:
对于那些不喜欢这个答案或不喜欢这本书的人,可以在新的https://fernandonogueiracosta.files.wordpress.com/2014/07/taleb-nassim-silent-risk中查看 Taleb 的技术论点。 pdf “沉默风险”,技术性 的。
说“这本书的主旨是统计学不是很有用”是不准确的,我认为。读过这本书后,他似乎在说像量化金融或任何假设正态分布的证券交易之类的东西在根本上是有缺陷的(实际上,在书中,他称那些声称使用这些模型进行预测的人,“江湖骗子”)。根据 Taleb 的说法,虽然正态分布在模拟有形/有形事物(例如身高、体重、寿命等)的价值方面做得很好,但像市场这样的系统往往是由人类情感驱动的,因此容易发生正态分布无法准确预测的大波动。
我不太了解统计数据,在阅读此处的答案之前,我从未听说过诸如极值理论之类的东西。无论如何,《黑天鹅》和《被随机性愚弄》似乎有相似的前提,即“正态分布并不总是可以”。我不记得他诽谤整个统计领域。