我一直在阅读值、类型 1 错误率、显着性水平、功效计算、效应大小和 Fisher 与 Neyman-Pearson 辩论。这让我感到有些不知所措。我为文字墙道歉,但我觉得有必要概述一下我目前对这些概念的理解,然后再讨论我的实际问题。
从我收集到的信息来看,值只是对惊喜的衡量,即在假设原假设为真的情况下,获得结果的概率至少是极端的。费舍尔最初打算将其作为连续测量。
在 Neyman-Pearson 框架中,您预先选择一个显着性水平并将其用作(任意)截止点。显着性水平等于类型 1 错误率。它由长期运行频率定义,即如果您要重复一个实验 1000 次并且原假设为真,那么由于抽样的可变性,其中大约 50 个实验会产生显着影响。通过选择显着性水平,我们以一定的概率保护自己免受这些误报的影响。值传统上不会出现在这个框架中。
如果我们发现值为 0.01,这并不意味着类型 1 错误率为 0.01,类型 1 错误是先验的。我相信这是 Fisher 与 NP 辩论中的主要论点之一,因为值通常报告为 0.05*、0.01**、0.001***。这可能会误导人们说效果在某个值上是显着的,而不是在某个显着性值上。
我也意识到值是样本量的函数。因此,它不能用作绝对测量值。在大样本实验中,小的值可能指向小的、不相关的影响。为了解决这个问题,在确定实验的样本量时执行功效/效应量计算非常重要。值告诉我们是否有影响,而不是影响有多大。见沙利文 2012 年。
我的问题: 我如何调和值是衡量惊喜(更小 = 更有说服力)同时又不能被视为绝对测量的事实?
我感到困惑的是:我们可以对一个小的值比一个大的 p 值更有信心吗?在费雪的意义上,我会说是的,我们更惊讶。在 NP 框架中,选择较小的显着性水平意味着我们正在更加强烈地防范误报。
但另一方面,值取决于样本量。它们不是绝对的衡量标准。因此,我们不能简单地说 0.001593比 0.0439更重要。然而,这就是费舍尔的框架所暗示的:我们会对如此极端的价值感到更加惊讶。甚至有人讨论了“高度显着”一词是用词不当:将结果称为“高度显着”是错误的吗?
我听说值只有在小于 0.0001 时才被认为是重要的,而在其他领域中,大约 0.01 的值已经被认为是非常重要的。
相关问题: