我们应该注意哪些数据条件,其中 p 值可能不是确定统计显着性的最佳方法?是否有属于此类别的特定问题类型?
p值何时具有欺骗性?
数据挖掘
大数据
统计数据
2021-09-30 02:26:42
3个回答
您正在询问数据疏浚,这是在针对数据集测试大量假设或针对由相同数据建议的数据集测试假设时发生的情况。
解决方案是对False discovery rate或Familywise error rate使用某种校正,例如Scheffé方法或(非常老派的)Bonferroni 校正。
以一种不太严格的方式,它可能有助于通过每个统计结果的优势比 (OR) 的置信区间过滤您的发现。如果优势比的 99% 置信区间为 10-12,则 OR <= 1 的概率极小,尤其是在样本量也很大的情况下。如果你发现这样的东西,即使它来自数百万个假设的检验,它也可能是一个强大的效果。
您应该注意的一件事是您使用的样本量。非常大的样本,例如使用人口普查数据的经济学家,将导致 p 值缩小。这篇论文“Too Big to Fail: Large Samples and the p-Value Problem”涵盖了一些问题。