社会科学中大多数已发表的相关性是否不可信,该怎么办?

机器算法验证 相关性 方法 发表偏倚
2022-03-28 11:47:57

尽管个人为揭露掠夺性期刊的做法做出了重要但带有“陷阱”的努力,但社会科学研究的阴影中隐约出现了更大、更根本的威胁(尽管研究人员肯定需要解决多个问题)。直截了当地说,根据一种观点,我们可能无法相信从小于 250 的样本中得出的相关系数

很难找到一种比可信相关系数更依赖于推断社会科学测量之间关联的存在、方向和强度的测试。然而,根据从少于 250 个案例的数据中计算出的相关系数,人们不难找到经过同行评审的报告对两种结构之间的关系做出强有力的断言

鉴于当前社会科学面临的复制危机(参见上面的第二个链接),我们应该如何看待这份关于仅在大样本中稳定相关系数的报告(至少按照某些社会科学领域的标准)?这是同行评议的社会科学研究墙上的另一个裂缝,还是在其介绍中被夸大了的相对微不足道的事情?

由于这个问题不太可能有一个正确的答案,我希望改为生成一个线程,可以共享、深思熟虑和辩论(当然是礼貌和恭敬地)​​关于这个问题的资源。

2个回答

为估计的真实相关系数添加置信区间ρ将是朝着正确方向迈出的一小步(而且非常简单)。它的宽度会立即让您对样本相关性的精确度产生印象,同时让作者和观众能够测试有用的假设。与社会科学的统计学家交谈时,我总是感到困惑的是,绝对样本相关系数高于L=0.3(或其他一些限制)被认为是有意义的。同时,他们正在测试工作假设ρ0. 这是无关紧要的。为什么一个非常小的人口相关系数会突然被认为是有意义的?“正确”的工作假设是|ρ|>L. 有一个置信区间ρ在手边,这样的假设很容易被检验:只需检查区间是否完全位于上方L(或以下L) 并且您知道您是否可以声称即使在总体中也存在“实质性”统计关联。

当然,仅添加置信区间并使用有意义的测试不会解决太多问题(例如糟糕的抽样设计、忽略混杂因素等)。但它基本上是免费的。我想即使是 SPSS 也能计算出来!

正如迈克尔 M 指出的那样,报告的相关性或任何其他估计的可信度可以使用置信区间进行评估。在某种程度上,就是这样。如果在数据收集后选择模型,CI 将太窄,我估计在社会科学中大约 95% 的时间会发生这种情况(老实说,这是我的一个完整猜测)。

补救措施是双重的:

  • 我们正在谈论一个“危机”。因此,失败的复制告诉我们,最初的影响可能只是随机噪音。我们需要做(并资助、撰写、提交和接受)更多的复制。复制研究正在慢慢获得尊重,那就是一件好事。

  • 第二种补救办法当然是. 如果我们报告了许多相似数据的相关性,即使它们中的每一个都具有低n,然后我们可以汇集信息并学习一些东西。理想情况下,我们甚至能够检测到进行中。