每个统计学家都应该知道哪些理论?

机器算法验证 数理统计 职业生涯 大数定律
2022-02-13 02:49:02

我从一个非常基本的、最低要求的角度来考虑这个问题。行业(而非学术)统计学家应该定期了解、理解和利用哪些关键理论?

想到的一个大数是大数定律将统计理论应用于数据分析最重要的是什么?

4个回答

坦率地说,我不认为大数定律在工业中发挥了巨大的作用。了解常用程序的渐近证明很有帮助,例如最大似然估计和测试(尤其包括非常重要的 GLM 和逻辑回归)、引导程序,但这些是分布问题,而不是遇到坏样本的概率问题.

除了已经提到的主题(GLM、推理、引导程序)之外,最常见的统计模型是线性回归,因此必须彻底了解线性模型。你可能永远不会在你的行业生活中运行 ANOVA,但如果你不理解它,你就不应该被称为统计学家。

有不同种类的行业。在制药行业,没有随机试验和逻辑回归就无法谋生。在调查统计中,如果没有 Horvitz-Thompson 估计器和无响应调整,您将无法谋生。在计算机科学相关的统计中,没有统计学习和数据挖掘就无法谋生。在公共政策智囊团(以及越来越多的教育统计数据)中,如果没有因果关系和治疗效果估计器(越来越多地涉及随机试验),你就无法谋生。在营销研究中,您需要将经济学背景与心理测量理论结合起来(并且您无法在典型的统计部门的课程中学习它们)。工业统计使用其独特的六西格玛范式运作,这些范式与主流统计数据相距甚远;在实验材料的设计中可以找到更强的键。华尔街的材料将是金融计量经济学,一直到随机微积分。这些是非常不同的技能,“行业”一词的定义甚至比“学术界”更难定义。我认为没有人可以声称同时知道以上两三个以上的知识。

然而,在“行业”中普遍需要的顶级技能(无论这对你意味着什么)将是时间管理、项目管理以及与不太懂统计的客户的沟通。因此,如果您想为行业安置做好准备,请在商学院学习这些主题的课程。

更新:原帖写于 2012 年 2 月;这些天(2014 年 3 月),您可能应该称自己为“数据科学家”而不是“统计学家”,以便在行业中找到一份热门工作……并更好地学习一些 Hadoop 来遵循自我宣言。

我认为对与偏差-方差权衡相关的问题有很好的理解大多数统计学家最终会在某个时候分析一个足够小的数据集,以使估计器的方差或模型的参数足够高,以至于偏差是次要考虑因素。

指出一个非常明显的:

中心极限定理

因为它允许从业者许多值的情况下值。按照同样的思路,一般来说,任何成功的从业者都会很好地熟悉pp

自举

我不会说这与大数定律或中心极限定理非常相似,但由于对因果关系进行推断通常是核心,因此人们应该熟悉 Judea Pearl 关于使用结构化图建模因果关系的工作和。它提供了一种方法来理解为什么实验性研究和观察性研究在它们提供的因果推论方面存在差异,并提供了处理观察性数据的方法。为了得到一个很好的概述,他的书在这里