在 Casella & Berger 之后要学习什么?

机器算法验证 分布 参考 探索性数据分析
2022-01-19 11:24:34

我是一名纯数学研究生,几乎没有应用数学背景。自去年秋天以来,我一直在学习 Casella & Berger 的书,我已经完成了书中数百(230+)页的练习题。现在我在第10章。

但是,由于我没有主修统计学,也没有计划成为统计学家,我认为我无法定期投入时间继续学习数据分析。到目前为止,我的经验告诉我,要成为一名统计学家,需要忍受大量繁琐的计算,涉及各种分布(Weibull、Cauchy、 ...)。我发现虽然基本思想很简单,但由于技术问题,实现(例如假设检验中的 LRT)仍然很困难。tF

我的理解正确吗?有没有一种方法可以让我学习概率和统计,不仅涵盖更高级的材料,而且还可以帮助我在现实生活中需要数据分析?我需要像以前一样每周花 20 小时在上面吗

虽然我相信学习数学没有捷径可走,但我常常忍不住想知道——大多数时候我们不知道现实生活数据的分布是什么,那么我们专注于各种分布族的目的是什么? 如果样本量较小且中心极限定理不适用,那么在分布未知的情况下,除了样本均值和方差外,我们如何正确分析数据?

我的学期将在一个月后结束,我不希望我的知识在我开始专注于我的博士研究后蒸发。所以我决定问问。我正在学习R,我有一些编程背景,但我的水平和码猴差不多。

4个回答

我认为我无法定期投入时间继续学习数据分析

我不认为 Casella & Berger 是一个以数据分析的方式学习数据的地方。这是一个学习一些统计理论工具的地方。

到目前为止,我的经验告诉我要成为一名统计学家,需要承受大量繁琐的计算,涉及各种分布(Weibull、Cauchy、t、F...)。

作为一名统计学家,我花了很多时间进行数据分析。它很少(几乎从不)涉及我进行繁琐的计算。它有时涉及一些简单的代数,但通常会解决常见问题,我不需要每次都花费任何精力来复制它。

计算机完成所有繁琐的计算。

如果我不准备假设一个合理的标准情况(例如不准备使用 GLM),我通常也没有足够的信息来假设任何其他分布,所以计算的问题LRT 通常是没有实际意义的(我可以在需要时执行它们,它们要么往往已经解决,要么很少出现,以至于这是一个有趣的转移)。

我倾向于做很多模拟;我也经常尝试在参数假设旁边或代替参数假设使用某种形式的重采样。

我需要像以前一样每周花 20 小时以上的时间在上面吗?

这取决于您希望能够做什么,以及您想在多长时间内擅长它。

数据分析是一种技能,它需要实践和大量的知识基础。你已经掌握了一些你需要的知识。

如果你想在各种各样的事情上成为一名优秀的练习者,这将需要很多时间——但在我看来,这比代数和卡塞拉和伯杰练习更有趣。

我建立的一些技能说回归问题对时间序列很有帮助,比如说——但需要很多新技能。因此,学习解释残差图和 QQ 图很方便,但它们并没有告诉我我有多少需要担心 PACF 图中的小颠簸,也没有给我使用一步超前预测之类的工具错误。

因此,例如,我不需要花费精力来弄清楚如何为典型的gamma 或 weibull 模型进行合理的 ML ,因为它们足够标准,可以解决已经在很大程度上以方便形式出现的问题。

如果你来做研究,你将需要更多在 Casella & Berger 这样的地方学到的技能(但即使有这些技能,你也应该阅读不止一本书)。


一些建议的事情:

你绝对应该建立一些回归技能,即使你什么都不做。

有很多很好的书,但也许是 Draper & Smith Applied Regression Analysis加上 Fox 和 Weisberg An R Companion to Applied Regression我还建议您考虑遵循 Harrell 的回归建模策略

(你可以用任意数量的好书代替德雷珀和史密斯——找到一两本适合你的书。)

第二本书有许多非常值得阅读的在线附加章节(以及它自己的R-package)

--

一个很好的第二个服务将是 Venables & Ripley 的现代应用统计与 S

这是相当广泛的想法的一些基础。

在某些主题中,您可能需要一些更基本的材料(我不知道您的背景)。

然后你需要开始考虑你想要/需要哪些统计领域——贝叶斯统计、时间序列、多变量分析等

我的建议是从相反的角度(统计博士生)来阅读回归教科书。对于具有扎实理论背景但没有任何应用经验的人来说,这似乎是一个自然的起点。我知道我们系外的许多研究生都是从回归课程开始的。

一个很好的是 Sanford Weisberg 的Applied Linear Regression我相信它是第四版。您可能会找到相对便宜的旧版本。

http://users.stat.umn.edu/~sandy/alr4ed/

这本教科书的一个好处是,特别是考虑到您对 R 的相对缺乏经验,可以通过上述链接获得 R 入门。它提供了足够的指导来重新创建书中所做的一切。通过这种方式,您实际上可以学习回归(除了 GLM 的一些基础知识),而不会因缺乏 R 编程而阻碍您(并且您可能会在此过程中学习许多 R 基础知识)。

如果您想全面了解 R,最好阅读 Fox 和 Weisberg 的An R Companion to Applied Regression,但听起来您更愿意学习统计而不是编程(如果可以分别考虑这两件事)。

就你的时间投入而言,我真的不认为你会觉得这本教科书或材料太难了。与 Casella-Berger 不同,证明或推导的方式不会太多。它通常非常简单。

顺便说一句,网上似乎有一些解决方案(或者在某些时候),所以你可以尝试问题,检查解决方案,并按照自己的方式快速阅读本书。

我正试图以一种迂回的方式让自己更像一名统计学家,但我主要是一名碰巧有一些定量和方法论兴趣的心理学家。为了正确地进行心理测量工作,我一直在研究高级(对于心理学家而言)方法,这些方法我不会梦想手动计算(更不用说我知道如何)。在过去十年中,通过 R 包程序员的所有专注努力,这些方法变得如此易于访问和方便,我感到很惊讶。我一直在使用新方法进行现实生活分析,每种方法在不到 20 小时内就学会了使用这些方法……当我准备发布一个新方法时,我可能会花那么多时间在一种新方法上结果使用它,但肯定没有必要像我一样为了取得进步而做兼职学习。找时间做你能做的事;如果您不需要,这不是全有或全无的追求。

我当然没有专注于任何主题,更不用说发行系列了。我怀疑任何诚实的统计学家也会如此狭隘地研究。在过去的一周里,我有几次每天都在尝试过一个小时的理论分布。这在实际数据应用程序中证明是有用的。据我所知,这个想法并不是对分布进行严格分类。它是识别类似于理论的分布形状,并使用它们来帮助决定适当的分析和理解基本动态。我对我最近对“基于理论、拟合或其他选择分布更好吗? ”的回答分享了类似的想法。

你没有说在我假设是你假设的最坏情况下你想执行什么分析,但是有一些方法可以研究任何分析对抽样误差的敏感性。如果 CLT 不适用,如果您知道如何操作,仍然可以询问几个统计问题。非参数方法通常对分布做出非常有限的假设,因此对总体分布形状的先验知识不一定是主要问题。

一般来说,知识不会很快或完全消失,但如果你不使用它,你会发现更难自由回忆。您将保留更长时间的认可优势,如果您需要学习几年前研究过的主题,这仍然会派上用场……但是如果您想保持对所学内容的流利,请继续使用它,并继续学习!R 绝对是您投入任何空闲学习时间的好地方。它也应该对您的纯数学有所帮助:请参阅我最近对“与 PowerPoint 一起使用的最佳开源数据可视化软件”的另一个答案

我在 2019 年偶然发现了这个。我的两分钱。

我是一名统计学教授,喜欢做各种数据分析(这就是我选择统计学的原因!)。为了学习一些实用知识,我推荐 James、Witten、Hastie 和 Tibshirani “统计学习简介”。他们甚至有基于此的 MOOC。本书使用了大量“真实数据”示例,并且也是基于 R 的。