我正在处理一个 N 约为 200,000 的数据集。在回归中,我看到非常小的显着性值 << 0.001 与非常小的效应大小相关联,例如 r=0.028。我想知道的是,是否有一种原则方法可以确定与样本量相关的适当显着性阈值?关于用如此大的样本解释效应大小,还有其他重要的考虑因素吗?
如何为大数据集选择显着性水平?
在显着性检验的无意义性中,Johnson (1999) 指出 p 值是任意的,因为您可以通过收集足够的数据使它们尽可能小,假设原假设为假,几乎总是如此。在现实世界中,不太可能存在完全为零的半偏相关,这是检验回归系数显着性的原假设。P 值显着性截止值更加随意。0.05 的值作为显着性和非显着性之间的分界线是按惯例使用的,而不是原则上使用的。所以你的第一个问题的答案是否定的,没有原则性的方法来决定一个适当的显着性阈值。
那么,鉴于您的大型数据集,您能做些什么呢?这取决于您探索回归系数的统计显着性的原因。您是否正在尝试对复杂的多因素系统进行建模并开发出合理拟合或预测现实的有用理论?然后也许你可以考虑开发一个更精细的模型并从建模的角度来看待它,如Rodgers (2010), The Epistemology of Mathematical And Statistical Modeling中所述。拥有大量数据的一个优势是能够探索非常丰富的模型,这些模型具有多个级别和有趣的交互(假设您有变量可以这样做)。
另一方面,如果您想判断是否将特定系数视为具有统计显着性,您可能需要采用Woolley (2003)中总结的 Good (1982) 建议:计算q 值作为它将 p 值标准化为 100 的样本大小。恰好 0.001 的 p 值转换为 0.045 的 p 值——仍然具有统计学意义。
因此,如果使用某个任意阈值或其他阈值很重要,那又如何呢?如果这是一项观察性研究,您需要做更多的工作来证明它在您的思维方式中实际上是有意义的,而不仅仅是因为您错误指定了模型而出现的虚假关系。请注意,如果一个小的效果代表了选择不同治疗水平的人之间预先存在的差异而不是治疗效果,那么它在临床上就不那么有趣了。
正如评论者所指出的,您确实需要考虑您所看到的关系是否具有实际意义。转换您引用的数字到对于方差解释(是相关性,将其平方以得到解释的方差)分别只解释了 3% 和 6% 的方差,这看起来并不多。
我想一个简单的检查方法是从你知道的一个分布中随机抽取一个同样大的数字,然后比较两个结果。如果您多次这样做并观察到相似的 p 值,则表明没有真正的影响。另一方面,如果你没有,那么可能有。