理解统计理论和应用

机器算法验证 数理统计 生物信息学 计算统计
2022-03-23 07:11:09

我最近获得了医学和生物建模硕士学位,并以工程数学为背景。尽管我的教育计划包括大量的数理统计课程(请参阅下面的列表),我以相当高的成绩完成了这些课程,但我经常最终完全迷失在统计学的理论和应用上。我不得不说,与“纯”数学相比,统计学对我来说真的没有什么意义。尤其是大多数统计学家(包括我过去的讲师)使用的符号和语言令人讨厌地令人费解,到目前为止我所看到的资源(包括维基百科)几乎没有一个简单的例子可以很容易地与给出的理论相关联。 ..

这是背景;我也意识到一个苦涩的现实,如果不牢牢掌握统计学,我就无法从事研究人员/工程师的职业,尤其是在生物信息学领域。

我希望我能从更有经验的统计学家/数学家那里得到一些建议。我怎样才能克服我上面提到的这个问题?你知道任何好的资源吗?例如书籍、电子书、公开课程(通过 iTunes 或 OpenCourseware for ex)等。

编辑:正如我所提到的,我对统计学的一般标题下的大多数文献有很大的偏见(负面),并且由于我不能为每个统计学分支购买大量(且昂贵)的课本,所以我需要什么就一本书而言,类似于Tipler 和 Mosca 的物理学,而是统计数据。

对于那些不了解 Tipler 的人;这是一本大型教科书,涵盖了人们在高等教育期间可能遇到的大部分主题,并从基本介绍到稍微深入的细节逐一介绍。基本上是一本完美的参考书,在我大学的第一年买的,现在仍然偶尔使用。


我上过的统计学课程:

  • 大型入门课程,
  • 平稳随机过程,
  • 马尔可夫过程,
  • 蒙特卡罗方法
  • 生存分析
4个回答

我完全可以理解你的情况。尽管我是博士生,但有时我发现相关的理论和应用很难。如果您愿意沉浸在理解理论中,那么当您思考现实世界的问题时,这绝对是有益的。但这个过程可能令人沮丧。

我喜欢的众多参考资料之一是 Gelman 和 Hill 的Data Analysis Using Hierarchical/Multilevel Models他们避免使用模拟来表达基本概念的理论。如果您有 MCMC 等方面的经验,它肯定会让您受益。正如您所说,您从事生物信息学工作,可能 Harrell's Regression Modeling Strategies也是一个很好的参考。

我将把它变成一个社区 wiki 并让其他人添加到它。

您熟悉贝叶斯数据分析(由 Gelman、Carlin、Stern 和 Rubin 撰写)吗?也许这就是你需要的剂量。

所有统计问题基本上都归结为以下 4 个步骤(我从@whuber对另一个问题的回答中借用了这些步骤):

  1. 估计参数。

  2. 评估该估计的质量。

  3. 探索数据。

  4. 评估适合度。

您可以使用 word model交换 word参数

统计书籍通常针对各种情况提出前两点。每个现实世界的应用程序需要不同的方法,因此需要不同的模型,因此大部分书籍最终都会对这些不同的模型进行分类。这会产生不良影响,即很容易迷失在细节中而错过大局。

我衷心推荐的大图画书是渐近统计它对该主题进行了严格的处理,并且在数学上是“纯粹的”。虽然它的标题提到了渐近统计,但一个不为人知的秘密是,大多数经典统计方法本质上都是基于渐近结果的。

我认为这里最重要的是培养对统计和一些一般统计概念的直觉。也许最好的方法是拥有一些您可以“拥有”的域。这可以提供一个积极的反馈循环,在这个循环中,对领域的了解可以帮助您更多地了解基础统计信息,从而帮助您更多地了解领域等。

对我来说,那个领域是棒球数据。我知道在一场比赛中以 4 投 3 中的击球手并不是“真正的”0.750 击球手。这有助于理解样本数据与基础分布不同的更普遍的观点。我也知道他可能更接近普通球员而不是 0.750 击球手,所以这有助于理解回归平均值等概念。从那里我可以得到全面的贝叶斯推理,其中我的先验概率分布具有平均棒球运动员的平均值,并且我现在有 4 个新样本来更新我的后验分布。

我不知道该域对您来说是什么,但我想它会比单纯的教科书更有帮助。例子有助于理解理论,这有助于理解例子。带有示例的教科书很好,但是除非您可以将这些示例设为“您的”,否则我想知道您是否能从中获得足够的帮助。