正如我在相关答案中指出的那样,我的观点是,最好将“虚假”归因于从相关性到原因的不正确推断. 能够准确地谈论统计分析中变量之间的相关性(和其他非线性关联)的证据是很重要的,这通常会导致有明确的相关性证据或变量之间的其他一些统计关联的情况。当有证据表明它确实存在时,仅仅断言这种关系存在,当然不是“虚假的”。因此,将统计关联的推论本身称为“虚假”是不合适的。“虚假”是当一个人获取相关性证据,然后在不需要该步骤的情况下使用它来推断变量之间的直接因果关系。出于这个原因,我发现术语“虚假相关”对讨论有害,因为它实际上是指从实际存在的相关性到不存在的原因的虚假推断。
您列表中的项目:这些情况都没有让我觉得本质上是“虚假的”,尽管在某些情况下它们可能伴随着错误的推论。您列表中的第 1-2 项仅代表存在抽样误差的情况,因此对较小样本中的关系或数量的估计不能准确反映从中抽取样本的较大组中的真实关系或数量. 由于统计方法对可能的抽样误差水平进行了适当的测量,因此这里无需进一步说明。只要使用适当的估计量进行推论,并构建考虑抽样误差的适当的不确定性度量(例如,使用置信区间、贝叶斯后验区间等),就不会发生“虚假”。在我看来,
第 3 项指的是一种统计关联的实际关系,但只是“无趣”,因为它不反映关联变量之间的因果关系。同样,承认这种统计关联的存在本身并没有什么“虚假”,但如果一个人要推断冰淇淋销售和溺水之间的因果关系,那确实是一个虚假的推论。
第 4 项在我看来是不可能的。如果您将因果关系追溯到其哲学根源,最终它只是对它所采取的某些行动的对象的归因。(因果关系只是“应用于行动的同一性”——即,事物根据其性质而行动。)因此,任何产生“数据”的过程都在采取行动,并且该行动原则上可以追溯到过程及其组成对象的性质。(请注意,我们在这里谈论的是形而上学,而不是认识论;我们无法揭示因果链可能是有原因的。)
哪些项目要向学生解释:在我看来,从你的四个项目中基本上得出了三个原则,所有这些原则对于理解因果关系和统计关联之间的相互作用都很有价值。首先,有一个哲学问题是什么是因果关系在形而上学的层面。其次,有一个问题是什么时候可以从统计关联中正确推断出因果关系(什么时候不能)。第三,我们如何找到统计关联的证据,以及我们对统计关联的推断有多准确。在教授统计学时,这些问题中的每一个都很有价值,但第一个问题会让你更深入地了解哲学领域。如果您希望您的学生发展他们作为实验者的技能,那么他们应该花一些时间来面对这些问题,并建立一个统计关联和因果关系的综合理论。
至少,我希望参加一些统计课程的学生能够对估计统计关联的方法以及可能的抽样误差水平有合理的理解,并且我希望他们理解“相关性不是原因”的禁令”。随着时间的推移,他们应该对因果结构及其统计含义有更深入的理解,最终他们应该培养计划和理解实验结构的能力,这些实验结构旨在允许从关联推理过渡到因果关系推理。如果您的学生可以用合理连贯的因果关系哲学解释来支持这一点,那当然是可取的,但这种情况非常罕见,将其排除在统计学课程之外是情有可原的。