如果大数据中有大量的小 p 值,那么在具有数百万个样本的数据中,什么是 p 值的可比替代品?
是否可以替代大数据中的小 p 值?
数据挖掘
统计数据
大数据
2021-09-21 08:52:41
2个回答
另请参阅p 值何时具有欺骗性?
当有很多变量可以测试成对相关性时(例如),替代方法是使用错误发现率(以限制任何给定发现为错误的概率)或Familywise 错误率(限制一个或多个错误发现的可能性)。例如,您可以使用 Holm–Bonferroni 方法。
在大样本而不是很多变量的情况下,需要其他东西。正如克里斯托弗所说,效果的大小是一种治疗方法。结合这两个想法,您可以使用围绕您的影响大小的置信区间,并对置信区间的 p 值应用错误发现率校正。无论数据集大小如何,即使校正置信区间的最低界限也很高的影响也可能是强影响。我不知道有任何已发表的论文以这种方式将置信区间与错误发现率校正相结合,但这似乎是一种直接且直观易懂的方法。
为了使这一点变得更好,请使用非参数方法来估计置信区间。假设一个分布在这里可能会给出非常乐观的估计,甚至将分布拟合到数据也可能是不准确的。由于有关超过置信区间边缘的分布形状的信息来自相对较小的数据子样本,因此这是真正值得小心的地方。您可以使用自举来获得非参数置信区间。
其它你可能感兴趣的问题