我是一名对统计学产生兴趣的研究生。我总体上喜欢这些材料,但有时我很难考虑在现实生活中的应用。具体来说,我的问题是关于常用的统计分布(正态-β-伽马等)。我想在某些情况下,我得到了使分布相当好的特定属性——例如指数的无记忆属性。但是对于许多其他情况,我对我们在教科书中看到的常见发行版的重要性和应用领域都没有直觉。
可能有很多很好的资源可以解决我的担忧,如果你能分享这些,我会很高兴。如果我能把它与现实生活中的例子联系起来,我会对这些材料更有动力。
我是一名对统计学产生兴趣的研究生。我总体上喜欢这些材料,但有时我很难考虑在现实生活中的应用。具体来说,我的问题是关于常用的统计分布(正态-β-伽马等)。我想在某些情况下,我得到了使分布相当好的特定属性——例如指数的无记忆属性。但是对于许多其他情况,我对我们在教科书中看到的常见发行版的重要性和应用领域都没有直觉。
可能有很多很好的资源可以解决我的担忧,如果你能分享这些,我会很高兴。如果我能把它与现实生活中的例子联系起来,我会对这些材料更有动力。
Wikipedia 有一个页面列出了许多概率分布,其中包含指向每个分布的更多详细信息的链接。您可以浏览列表并点击链接,以更好地了解不同发行版通常用于的应用程序类型。
请记住,这些分布是用来模拟现实的,正如 Box 所说:“所有模型都是错误的,有些模型是有用的”。
以下是一些常见的分布以及它们有用的一些原因:
正常:由于 CLT,这对于查看均值和其他线性组合(例如回归系数)很有用。与此相关的是,如果已知某些事情是由于许多不同的小原因的叠加效应而产生的,那么正态可能是一个合理的分布:例如,许多生物学测量是多个基因和多个环境因素的结果,因此通常是近似正态的.
Gamma:右偏,适用于自然最小值为 0 的事物。通常用于经过时间和一些财务变量。
指数:伽玛的特殊情况。它是无记忆的并且易于扩展。
卡方 ( ):Gamma 的特殊情况。以正态变量平方和的形式出现(因此用于方差)。
Beta:定义在 0 和 1 之间(但可以转换为其他值之间),适用于必须介于 0 和 1 之间的比例或其他数量。
二项式:在给定数量的“成功”概率相同的独立试验中,有多少“成功”。
泊松:常见的计数。很好的属性,如果一段时间或区域中的事件数遵循泊松,那么两倍时间或区域中的数字仍然遵循泊松(平均值的两倍):这适用于添加泊松或使用除以下以外的值进行缩放2.
请注意,如果事件随时间发生并且发生之间的时间遵循指数,那么在一段时间内发生的数量遵循泊松。
负二项式:计数最小值为 0(或其他值,具体取决于哪个版本)且没有上限。从概念上讲,它是 k 个“成功”之前的“失败”次数。负二项式也是泊松变量的混合,其均值来自伽马分布。
几何:负二项式的特殊情况,它是第一次“成功”之前的“失败”次数。如果截断(向下舍入)指数变量以使其离散,则结果是几何的。
购买并阅读至少前 6 章(前 218 页)William J. Feller “概率论及其应用简介,第 2 卷” http://www.amazon.com/dp/0471257095/ref=rdr_ext_tmb . 至少阅读所有问题的解决方案,并尽可能多地尝试解决问题。您无需阅读第 1 卷,在我看来这并不是特别有价值的。
尽管作者在 45 1/2 年前去世,甚至在这本书完成之前,这只是最好的书,没有之一,用于培养对概率和随机过程的直觉,以及理解和培养对各种分布的感觉,它们如何与现实世界的现象相关,以及可能发生并且确实发生的各种随机现象。有了坚实的基础,你就会在统计方面得到很好的服务。
如果你能通过后面的章节,这会变得有些困难,你将比几乎所有人领先数年。简单地说,如果你知道 Feller Vol 2,你就知道概率(和随机过程);这意味着,任何你不知道的事情,比如新的发展,你都可以在这个坚实的基础上快速掌握和掌握。
之前在这个线程中提到的几乎所有内容都在 Feller Vol 2 中(不是 Kendall Advanced Theory of Statistics 中的所有材料,但在 Feller Vol 2 之后阅读那本书将是小菜一碟),还有更多,更多,所有这些以一种应该发展你的随机思维和直觉的方式。Johnson and Kotz 对各种概率分布的细枝末节很有帮助,Feller Vol 2 有助于学习如何以概率的方式思考,知道从 Johnson 和 Kotz 中提取什么以及如何使用它。
渐近理论导致正态分布、极值类型、稳定定律和泊松。指数和 Weibull 倾向于作为事件分布的参数时间出现。在 Weibull 的情况下,它是样本最小值的极值类型。与正态分布观察的参数模型相关,卡方、t 和 F 分布出现在假设检验和置信区间估计中。卡方也出现在列联表分析和拟合优度检验中。为了研究检验的功效,我们有非中心 t 和 F 分布。超几何分布出现在 Fisher 对列联表的精确检验中。在进行实验以估计比例时,二项式分布很重要。负二项式是模拟点过程中过度离散的重要分布。这应该为您提供实用参数分布的良好开端。对于 (0, ∞) 上的非负随机变量,Gamma 分布可以灵活地提供各种形状,并且通常使用对数正态分布。在 [0,1] 上,β 族提供对称分布,包括均匀分布以及左偏或右偏分布。
我还应该提到,如果您想了解有关统计分布的所有细节,可以参考 Johnson 和 Kotz 的经典系列书籍,其中包括离散分布、连续单变量分布和连续多变量分布,以及高级理论的第 1 卷肯德尔和斯图尔特的统计。
一些常见的概率分布;从这里
均匀分布(离散) - 您掷出 1 个骰子,并且掉落 1、2、3、4、5 和 6 中的任何一个的概率相等。
(从这里)
均匀分布(连续) - 您向墙壁喷洒了一些非常细的粉末。对于墙上的一小块区域,灰尘落在墙上的机会是均匀的。
你有一个大气瓶。对于任何单位面积,每秒每平方厘米撞击内壁的气体分子数似乎是均匀的。
从这里
伯努利分布- 伯努利试验(或二项式试验)是一个随机试验,恰好有两种可能的结果,“成功”和“失败”。在这样的试验中,成功的概率是 p,失败的概率是 q=1-p。
例如,在抛硬币中,我们可以有 2 个结果——正面或反面。对于一个公平的硬币,正面的概率是 1/2;尾部概率为 1/2,是一种伯努利分布,也是均匀的。
在抛硬币中,如果硬币不公平,比如正面朝上的概率是 0.9,那么掉尾巴的概率就是 0.1。
概率为 0.6 和 0.4 的伯瑙利分布;从这里
二项分布- 如果伯努利试验(有 2 个结果,分别具有概率 p 和 q=1-p)运行 n 次;(比如抛硬币n次);得到正面的概率很小,得到所有反面的概率也很小。一定的头部值和一定的尾部值将是最大的。这种分布被称为二项分布。
带棋盘的二项分布。从WP修改的图像
泊松分布-来自 Wikipedia 的示例: 跟踪他们每天收到的邮件数量的个人可能会注意到他们平均每天收到 4 封信件。如果邮件来自独立来源,那么一天收到的邮件数量服从泊松分布。即每天收到零或 100 封邮件的机会微乎其微,但每天最多收到一定数量的邮件(这里是 4 封邮件)。
相似地; 假设在一个假想的草地上,e 在 1 km^2 内得到大约 10 颗鹅卵石。随着按比例增加的面积,我们按比例获得更多的鹅卵石。但是对于某个 1 km^2 的样本,它不太可能得到 0 或 100 个鹅卵石。可能它遵循泊松分布。
根据维基百科,放射源每秒衰变事件的数量遵循泊松分布。
来自维基百科的泊松分布
正态分布或高斯分布- 如果 n 个模具同时滚动,并且 n 非常大;每个骰子的结果总和往往会聚集在一个中心值周围。不是太大,也不是太小。这种分布被称为正态分布或钟形曲线。
2 的总和,从这里
随着同时模具数量的增加,分布接近高斯分布。从中心极限定理
类似地,如果同时抛 n 个硬币,并且 n 非常大,我们就有可能得到很多正面或太多反面。正面的数量将以某个值为中心。这类似于二项式分布,但硬币的数量更大。