作为潜在绊脚石的工业统计和社会科学统计/计量经济学之间有什么区别?

机器算法验证 参考 计量经济学 实验设计 社会科学 行动调查
2022-03-15 08:50:40

前面的主要问题:计量经济学/社会科学统计与人们在两者之间切换的工业统计之间有什么区别?

我在 12 月获得了数理统计博士学位,现在的工作与我多年来学习和关心的统计领域不同。我学习计量经济学多年,但现在我从事运筹学工作并使用工业统计数据。特别是,我现在看到的大多数研究都涉及设计实验。这在计量经济学中几乎从来没有。

由于我的工作是成为一名顾问,所以每当我向我所知道的非专家提出错误的主张或错误的建议时,我都会感到难过,我想我现在已经两次做出了错误的陈述。关于是否从 p 值不显着的统计模型中删除术语,或者是否应该支持包含或排除与相关的术语,我利用我的计量经济学课程并说:包含不相关术语的成本是更大的标准误差,但排除相关术语的成本是有偏差的参数估计,这是更糟糕的。这在技术上是正确的,但有偏差的参数在设计实验的背景下是无关紧要的。为了使参数有偏差,回归量需要相互关联;由于它们在设计的实验中无法相关,因此遗漏变量偏差不会成为问题,

(除此之外:我仍然倾向于包含可能不相关的因素,并且基于大 p 值从模型中删除参数或基于激进的 AIC 优化选择参数让我非常紧张;我宁愿采用一个考虑模型选择的程序自动,例如 LASSO 回归,或使用其他基础来删除 p 值以外的参数,例如查看手动选择模型的 AIC 或查看正态图,但模型选择仍然让我夜不能寐。)

这是几个月来我第二次提供不正确的建议(另一次是由于对术语的误解),我想尽我所能减少这种情况的发生。我的计量经济学背景表明自己是一个潜在的绊脚石(有时;有时它可能是一个优势),我希望看到计量经济学或社会科学统计与工业统计之间的其他潜在主要差异列表,我应该是意识到。还有什么我不应该说是真的,因为它是计量经济学的一个问题,因为它不是工业统计的一个问题?

2个回答

首先,对您在咨询工作中反思过去的错误很有帮助。你显然很关心给你的客户提供好的建议,从长远来看,你的自我批评可能会让你成为一名优秀的实践者。雇用研究生作为统计顾问的人应该知道,你得到你所支付的,而且他们正在雇用仍处于正规教育阶段的人。

统计理论应该被认为是关于推理、预测等的单一知识体系。虽然它包含许多不同的哲学、方法和模型,但该领域的全部意义在于它从特定的应用问题中抽象出来,并且因此,当涉及推理、预测等时,它适用于任何一门科学。统计理论在应用领域是(或至少应该是)相同的,但在不同应用领域的重点和应用肯定存在差异,因为针对不同类型的问题和信息限制。无论您在哪个特定领域工作,这里都有一些重要的事情需要牢记。

  • 始终考虑/仔细检查抽样方法:有些领域的数据是通过符合简单统计模型假设的良好抽样方法收集的,所以如果你只在这样的领域练习,很容易自满。对于咨询工作,重要的是要提醒自己必须考虑/仔细检查抽样方法,以防引发问题(例如,信息抽样问题)。在计量经济学工作中,研究中的许多变量是来自大规模调查工作的宏观经济估计,其中估计使用了大量基础数据(例如,来自人口普查、税务机构等的数据)。在社会科学中,大部分研究基于小规模调查或其他小规模抽样方法,有时这些方法不涉及适当的随机抽样。

  • 请注意因果推理与预测推理之间的区别:在预测推理中,我们只关心模型/方法的预测准确性,我们不太关心中间统计关联是否估计不佳或统计关联是否归因于因果关系。一般来说,这些问题是“容易的”。相反,在因果推断中,我们关心变量的因果效应,因此考虑模型中的特定参数是否被很好地估计,以及检测到的任何统计关联是否归因于因果关系变得很重要。通常,这涉及对实验理论的了解,特别是受控实验和非受控实验之间的区别。因果推论可以从随机对照实验中得出,在不受控制的情况下,我们通常会尝试“

  • 始终考虑“过度拟合”的问题:在我看来,即使模型项没有通过单独的“包含测试”(以及您对逐步回归的普遍怀疑),您也倾向于包含模型项(以及您对逐步回归的普遍怀疑),并且与专业的智慧。像这样的方法通常会导致“过度拟合”,因此通常可以合理地放入一堆模型项并将它们保留在模型中,即使其中一些看起来可能无关紧要。

  • 关注“大局”:有时在咨询工作中(特别是在社会科学领域),统计学家可能会为从小样本中挤出每一滴信息而苦恼,以及是否包含或排除单个模型项的问题看起来很重要。如果您发现这种情况正在发生,这可能表明样本量太小而无法提供可靠和稳健的推论(不严重依赖模型选择),最好的建议可能是您的客户应该获得更多数据。有时统计学家不愿意提出更多数据作为问题的答案,因为我们的主题的本质是根据我们拥有的信息做出最好的推论/预测,但在某些情况下,样本量是“大图”,模型项的包含/排除是“小图”。

我假设“工业”统计数据是指“应用”统计数据,其背后的理论并不相关。但正如上面的回复所说,所有统计领域都应该或多或少相同,尽管有些强调的东西与其他的不同。

我自己的工作介于学术、社会科学类型的统计和应用工业统计之间。我做了很多数据探索(生物医学数据),并且经常最终做回归和尝试来解释和预测结果。我的建议是确实在您的回归模型中包含变量,如果它们改善模型拟合(或者如果将它们取出会降低模型拟合),这些变量可能在统计上不显着。我使用的两个小诊断(这里谈论线性回归)是 R 平方值和回归的标准误差。R 平方显示了预测变量对结果变量的解释程度,即一个变量对另一个变量的解释程度。如果您继续在模型中添加变量,则 R 平方总是会上升,即使这些变量没有实际价值并且不能更好地预测事物。回归的标准误差是结果变量与回归线的平均偏差;即,线周围的点有多“紧”。两者在回归中经常被忽视,而且都非常有用。

其他一些交易技巧:

  1. 样本量很重要;通常结果不会显着不是因为效应大小,而是因为样本大小。熟悉统计功效(以检测显着结果)并根据需要在您的报告中使用它,以应对未来更大的样本量并确定您的结果。
  2. 绘制结果。和中间步骤。一张图片胜过千言万语。这包括熟练掌握软件中的图形。
  3. 经常学习新技术。网上有免费和付费的论坛和统计学习网站。使用它们。正如 Julia Child 所说,“每次烹饪时都要学习”。在统计数据中,您正在烹饪数字!浏览文献,看看其他人是如何展示他们的结果的;至少你会得到关于数据展示的好主意。
  4. 不断改进你的写作。记录你的结果是至关重要的。人们有时会听到他们想听到的内容,因此要学会谨慎措辞,尤其是有关您使用的统计模型的任何警告或假设或违反假设的情况(这并不总是会破坏交易)。
    4a) 偶尔发布一些东西,即使它只是一个小的技术发现或在你的领域与一位同事作为共同作者的例子。它可以提高您的可信度,并有助于您获得下一份工作。并随时更新您的简历。
  5. 把事情简单化。最简单的解决方案(例如回归)通常是最适合实际应用的解决方案。
  6. 学习引导。我刚刚熟悉它,它很有趣。它可能对小样本非常有用。
  7. 学习两个统计软件包。我不知道你到底在哪个领域,但我推荐 R 和 SAS 作为其中之一。(我自己是一个 SPSS 人,但如果我学的是 SAS,做同样的工作我可能赚到两倍的钱。他们不会在研究生院教你这些课程)。