是否可以替代大数据中的小 p 值?

数据挖掘 统计数据 大数据
2021-09-21 08:52:41

如果大数据中有大量的小 p 值,那么在具有数百万个样本的数据中,什么是 p 值的可比替代品?

2个回答

严格意义上来说,没有替代品。相反,您应该查看其他措施。

您查看的其他措施取决于您要解决的问题类型。通常,如果 p 值较小,还要考虑效应大小的大小。它可能具有高度的统计意义,但在实践中毫无意义。报告效应大小的置信区间也很有帮助。

我认为这篇论文在 DanC 对这个问题的回答中有所提及。

另请参阅p 值何时具有欺骗性?

当有很多变量可以测试成对相关性时(例如),替代方法是使用错误发现率(以限制任何给定发现为错误的概率)或Familywise 错误率(限制一个或多个错误发现的可能性)。例如,您可以使用 Holm–Bonferroni 方法。

在大样本而不是很多变量的情况下,需要其他东西。正如克里斯托弗所说,效果的大小是一种治疗方法。结合这两个想法,您可以使用围绕您的影响大小的置信区间,并对置信区间的 p 值应用错误发现率校正。无论数据集大小如何,即使校正置信区间的最低界限也很高的影响也可能是强影响。我不知道有任何已发表的论文以这种方式将置信区间与错误发现率校正相结合,但这似乎是一种直接且直观易懂的方法。

为了使这一点变得更好,请使用非参数方法来估计置信区间。假设一个分布在这里可能会给出非常乐观的估计,甚至将分布拟合到数据也可能是不准确的。由于有关超过置信区间边缘的分布形状的信息来自相对较小的数据子样本,因此这是真正值得小心的地方。您可以使用自举来获得非参数置信区间。